爬取新浪微博评论及点赞数并存储为excel的.csv格式

1、获取cookie,先进入微博页面登陆微博,如进入https://m.weibo.cn/status/4173028302302955后登陆,再使用chrome的F12可方便地获取自己的cookie,获取Cookie所需的选择项如下图所示,往下拉会看到自己的Cookie。

2、写爬虫,代码如下,可以爬取诸如用户名 评论时间 点赞数 评论内容等等,保存为.py文件。本文参考了一些博客,但由于时间问题,多多少少有点不适用当前版本,具体参考Reference。

# -*- coding: utf-8 -*-
import requests
import json
import time
import pymongo
import csv
import os
import codecs
import sys    
reload(sys)    
sys.setdefaultencoding('utf8')

client = pymongo.MongoClient('localhost', 27017)
weibo = client['weibo']
comment_ = weibo['comment_']

headers = {
    "Cookies":'********我是最有用的Cookies********',
    "User-Agent":'Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1'
}
# id可以换成任意新浪微博的微博id号,具体可以打开相应微博查看,这个评论通过微博开放的api获取,不是微博地址
url_comment = ['https://m.weibo.cn/api/comments/show?id=4173028302302955&page={}'.format(str(i)) for i in range(1,1000)]
#print(url_comment)
path = os.getcwd()+"/weibo.csv"
csvfile = open(path, 'w')
csvfile.write(codecs.BOM_UTF8)
writer = csv.writer(csvfile)
#writer.writerow(('username','created_at','source','comment','like_counts'))

def get_comment(url):
    try:
        wb_data = requests.get(url,headers=headers)
        #data_comment = json.loads(wb_data)
        #print(data_comment)
        jsondata = wb_data.json()
        datas = jsondata.get('data').get('data')
        for data in datas:
            created_at = data.get("created_at")
            like_counts = data.get("like_counts")
            source = data.get("source")
            username = data.get("user").get("screen_name")
            comment = data.get("text")
            #print json.dumps(comment, encoding="UTF-8", ensure_ascii=False)
            writer.writerow((username,created_at,source,json.dumps(comment, encoding="UTF-8", ensure_ascii=False),like_counts))
    except KeyError:
        pass
for url in url_comment:
    get_comment(url)
    time.sleep(2)
3、在.py文件的路径下打开powershell或者cmd,需要先使用pip install 安装需要import的包,最后使用python xxx.py运行,运行结果文件在该路径下,名字为weibo.csv 。如果运行遇到bug,需要问度娘,本博客只提供以下解决了的bug。


写入csv需要注意的是中文采用utf-8编码,如果直接写入会报错,在网上各种搜索得到多种方法,其中每种方法对应如下bug:

遇到bug1:UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-8: ordinal not in range(128)

需要添加:

import sys    
reload(sys)    
sys.setdefaultencoding('utf8')
遇到乱码bug2:

需要在创建文件前添加:

csvfile.write(codecs.BOM_UTF8)
如果要输出中文内容,可以通过如下代码格式化输出调试:
print json.dumps(comment, encoding="UTF-8", ensure_ascii=False)
4、结果:

用excel调整一下:


最后,感谢某小H给我的小问题,如果能做到的话,我会再写一份有关微信评论的爬取(先占个坑)。

Reference:

[1]http://blog.csdn.net/a_xiao_mili/article/details/77947802获取新浪微博cookie

[2]https://www.cnblogs.com/zhzhang/p/7208928.html Python爬取新浪微博评论数据,写入csv文件中

[3]http://blog.csdn.net/njzhujinhua/article/details/47176233 python写utf-8文件

etc.

  • 4
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 16
    评论
首先,使用Python爬取新浪微博评论数据需要以下步骤: 1. 登录微博开放平台,创建应用并获取App Key和App Secret。 2. 使用App Key和App Secret获取access_token。 3. 使用access_token获取微博的API接口。 4. 使用API接口获取微博评论数据。 5. 将数据存入数据库或写入csv文件中。 下面是一个简单的示例代码,演示如何使用Python爬取新浪微博评论数据并存入数据库中: ```python import os import sys import time import json import pymysql import requests from urllib.parse import quote_plus from datetime import datetime from dotenv import load_dotenv load_dotenv() app_key = os.getenv("APP_KEY") app_secret = os.getenv("APP_SECRET") access_token = os.getenv("ACCESS_TOKEN") # 数据库配置 db_host = os.getenv("DB_HOST") db_port = os.getenv("DB_PORT") db_user = os.getenv("DB_USER") db_password = os.getenv("DB_PASSWORD") db_name = os.getenv("DB_NAME") # 连接数据库 db = pymysql.connect(host=db_host, port=int(db_port), user=db_user, password=db_password, db=db_name, charset="utf8mb4") cursor = db.cursor() # 微博接口配置 base_url = "https://api.weibo.com/2/comments/show.json" max_count = 200 since_id = None max_id = None while True: # 构造API请求参 params = { "access_token": access_token, "source": app_key, "count": max_count, "since_id": since_id, "max_id": max_id, } # 发送API请求 response = requests.get(base_url, params=params) if response.status_code != 200: print("Failed to get comments data from Weibo API.") sys.exit(1) # 解析API响应数据 data = json.loads(response.text) comments = data["comments"] # 遍历评论数据并存入数据库 for comment in comments: created_at = datetime.strptime(comment["created_at"], "%a %b %d %H:%M:%S +0800 %Y") text = comment["text"] user_id = comment["user"]["id"] user_name = comment["user"]["name"] mid = comment["mid"] sql = "INSERT INTO comments (created_at, text, user_id, user_name, mid) VALUES (%s, %s, %s, %s, %s)" try: cursor.execute(sql, (created_at, text, user_id, user_name, mid)) db.commit() except: db.rollback() # 更API请求参 if len(comments) == 0: break else: since_id = comments[0]["id"] max_id = comments[-1]["id"] # 控制API请求频率 time.sleep(5) ``` 以上代码中使用了dotenv库来读取环境变量,因此需要在项目根目录下创建一个名为“.env”的文件,并在其中添加以下配置项: ```text APP_KEY=your_app_key APP_SECRET=your_app_secret ACCESS_TOKEN=your_access_token DB_HOST=your_db_host DB_PORT=your_db_port DB_USER=your_db_user DB_PASSWORD=your_db_password DB_NAME=your_db_name ``` 注意:上述代码中的“comments”和“comments_data”均为示例数据库表名,需要根据实际情况修改。
评论 16
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值