爬取微博话题

最新推荐文章于 2024-09-26 17:30:41 发布

小马AAA

最新推荐文章于 2024-09-26 17:30:41 发布

阅读量2.3k

点赞数

分类专栏：爬虫实战文章标签： python

本文链接：https://blog.csdn.net/qq_45796631/article/details/103997863

版权

博主通过Python爬虫抓取微博热门话题‘耳机对当代人的重要性’的评论，以解决想刷微博又想学习的矛盾。在数据清洗过程中，遇到了表情符号的处理难题，采用MySQL数据库并使用utf8mb4编码，对特殊符号进行清洗，但对于频繁出现的表情，则采取了replace方法进行简单处理。

摘要由CSDN通过智能技术生成

最近微博上有一个比较火的话题，叫做耳机对当代人有多重要，很是感兴趣

在这里插入图片描述

但是刷微博这种事情，太耽误学习了，那又想刷微博又想学习，该怎么办

那不如这样吧，写个爬虫，print每条评论，这样我就可以一边敲代码，时不时的看看打印，这多香啊

本次实战数据清洗部分极其恶心，我使用的数据库是mysql，那评论里又有很多特殊符号，特殊符号还好，使用mysql的utf8mb4还是可以处理的，但表情就实在是难住我了，我只好用最笨的replace大致的清洗下出现频率最多的表情了

开搞

import time
from http.cookiejar import CookieJar
from urllib import request
from lxml import etree
from urllib_day02 import myurllib
import MySQLdb
import re

conn = MySQLdb.connect(
    user='root',
    port=3306,
    password='123456',
    db='spider',
    charset='utf8mb4',
    host='localhost',
)
cursor = conn.cursor()

datas = '''Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9
Accept-Language: zh-CN,zh;q=0.9
Cache-Control: max-age=0
Connection: keep-alive
Cookie: SINAGLOBAL=329643001885.6844.1573002148871; login_sid_t=4396613b7b8d3841a00c4a00f2500236; cross_origin_proto=SSL; _s_tentry=www.baidu.com; Apache=5427773053657.6455.1578554625853; ULV=1578554626858:2:1:1:5427773053657.6455.1578554625853:1573002148894; WBtopGlobal_register_version=307744aa77dd5677; webim_unReadCount=%7B%22time%22%3A1578556209612%2C%22dm_pub_total%22%3A8%2C%22chat_group_client%22%3A0%2C%22allcountNum%22%3A19%2C%22msgbox%22%3A0%7D; UOR=,,login.sina.com.cn; appkey=; WBStorage=42212210b087ca50|undefined; SCF=Aj-iTSvsUNnwWoRS3kObxNvX9WkeGeRSr0D4KFIJls0TaAPw29BxH8f2ApSGwnwHbwIobZR3bXx0tBuK9PrkT7c.; SUB=_2A25zEq9zDeRhGeBP4lMT8i_PyDmIHXVQaYe7rDV8PUJbmtANLWvfkW9NRQq3_0YRQLcrIqGX1CGWYTAYXYJ05EGf; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9WWxxLrHCKQeaCVeIwANKWnx5JpX5K2hUgL.Foqp1K2Eeo20e0-2dJLoIceLxK-L1-eLBKnLxKqLB-qL12qLxKBLBonL1h5LxKqL1-BLBK2LxKBLB.eLBKBLxK-LB.qL1heLxKML1-2L1hBLxKqL1-zL1K.LxK-L1h-L1h.LxK-LBKBLBKMLxKnLBK2L1KMt; SUHB=0d4OXckQXeM2Bf; SSOLoginState=1578557219; un=13503301458
Host: s.weibo.com
Referer: https://weibo.com/
Sec-Fetch-Mode: navigate
Sec-Fetch-Site: same-site
Sec-Fetch-User: ?1
Upgrade-Insecure-Requests: 1
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'''
myrequest