到目前为止,能使用python写一点简单的程序了,本次的任务是爬取今日头条的文章信息。
大致涉及的知识点:json数据格式,浏览器插件jsonView,浏览器开发者模式,html基础,http代理,http协议
首先我们需要模拟浏览器参数,就是访问网页的客户端的大致信息。
然后封装请求参数:包含url、user-agent和http代理等
最后将爬取到的信息写入文本文件和excel中
代码如下:
"""
注意:dump和load是操作文件的,dumps和loads是json和字符串之间相互转换的
"""
import pathlib
import random
import requests
import time
import json
import pandas
# 模拟浏览器参数
def get_user_agent():
path = pathlib.Path("browsers.json")
if not path.exists():
url = 'http://fake-useragent.herokuapp.com/browsers/0.1.8'
response = requests.get(url)
with open("browsers.json", "w") as f:
json.dump(response.text, f)
with open("b

本文介绍了如何使用Python爬取今日头条的文章信息,涉及到的知识点包括json数据格式、浏览器开发者工具、HTTP代理等。通过模拟浏览器参数,封装请求参数,并将爬取到的数据写入文本文件和Excel中。
最低0.47元/天 解锁文章


被折叠的 条评论
为什么被折叠?



