爬取微博话题

博主通过Python爬虫抓取微博热门话题‘耳机对当代人的重要性’的评论,以解决想刷微博又想学习的矛盾。在数据清洗过程中,遇到了表情符号的处理难题,采用MySQL数据库并使用utf8mb4编码,对特殊符号进行清洗,但对于频繁出现的表情,则采取了replace方法进行简单处理。
摘要由CSDN通过智能技术生成
最近微博上有一个比较火的话题,叫做耳机对当代人有多重要,很是感兴趣

在这里插入图片描述

但是刷微博这种事情,太耽误学习了,那又想刷微博又想学习,该怎么办
那不如这样吧,写个爬虫,print每条评论,这样我就可以一边敲代码,时不时的看看打印,这多香啊
本次实战数据清洗部分极其恶心,我使用的数据库是mysql,那评论里又有很多特殊符号,特殊符号还好,使用mysql的utf8mb4还是可以处理的,但表情就实在是难住我了,我只好用最笨的replace大致的清洗下出现频率最多的表情了

开搞

import time
from http.cookiejar import CookieJar
from urllib import request
from lxml import etree
from urllib_day02 import myurllib
import MySQLdb
import re

conn = MySQLdb.connect(
    user='root',
    port=3306,
    password='123456',
    db='spider',
    charset='utf8mb4',
    host='localhost',
)
cursor = conn.cursor()

datas = '''Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9
Accept-Language: zh-CN,zh;q=0.9
Cache-Control: max-age=0
Connection: keep-alive
Cookie: SINAGLOBAL=329643001885.6844.1573002148871; login_sid_t=4396613b7b8d3841a00c4a00f2500236; cross_origin_proto=SSL; _s_tentry=www.baidu.com; Apache=5427773053657.6455.1578554625853; ULV=1578554626858:2:1:1:5427773053657.6455.1578554625853:1573002148894; WBtopGlobal_register_version=307744aa77dd5677; webim_unReadCount=%7B%22time%22%3A1578556209612%2C%22dm_pub_total%22%3A8%2C%22chat_group_client%22%3A0%2C%22allcountNum%22%3A19%2C%22msgbox%22%3A0%7D; UOR=,,login.sina.com.cn; appkey=; WBStorage=42212210b087ca50|undefined; SCF=Aj-iTSvsUNnwWoRS3kObxNvX9WkeGeRSr0D4KFIJls0TaAPw29BxH8f2ApSGwnwHbwIobZR3bXx0tBuK9PrkT7c.; SUB=_2A25zEq9zDeRhGeBP4lMT8i_PyDmIHXVQaYe7rDV8PUJbmtANLWvfkW9NRQq3_0YRQLcrIqGX1CGWYTAYXYJ05EGf; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9WWxxLrHCKQeaCVeIwANKWnx5JpX5K2hUgL.Foqp1K2Eeo20e0-2dJLoIceLxK-L1-eLBKnLxKqLB-qL12qLxKBLBonL1h5LxKqL1-BLBK2LxKBLB.eLBKBLxK-LB.qL1heLxKML1-2L1hBLxKqL1-zL1K.LxK-L1h-L1h.LxK-LBKBLBKMLxKnLBK2L1KMt; SUHB=0d4OXckQXeM2Bf; SSOLoginState=1578557219; un=13503301458
Host: s.weibo.com
Referer: https://weibo.com/
Sec-Fetch-Mode: navigate
Sec-Fetch-Site: same-site
Sec-Fetch-User: ?1
Upgrade-Insecure-Requests: 1
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'''
myrequest 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值