![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
蓝天0809
努力学习中
展开
-
某条微博评论数据爬取
1,微博网页版爬取难度较大,本次爬取手机版评论数据:m.weibo.cn;2,评论网页为动态的,查看方式network----XHR----请求对应的url注:url中的id,mid与微博地址中的后缀一致,评论往下滑,20条之后,会出现新的url,新的url中多了max_id,该参数类似分页参数,在preview的data下面有,该max_id即下一条url中的max_idimport requestsimport jsonimport pprintimport pandas as pd原创 2021-08-01 21:30:14 · 2025 阅读 · 5 评论 -
python爬取视频
爬虫步骤拆解:1、分析目标网页,确定爬取的URL路径,header参数:打开网页地址,右击–检查,Network–Hide data URLs(筛选功能)–XHR并在headers下获取user-agent、cookie参数2、发送请求-requests 模拟浏览器发送请求,获取响应数据,此时获取的数据就是源代码中response的内容3、爬取数据-json模块,把json字符串转化为python可交互的数据类型1)、数据转换2)、数据解析4、保存数据-保存在目标文件夹中附代码原创 2020-05-17 11:05:41 · 6290 阅读 · 5 评论 -
爬取排名前100的电影信息
import timeimport jsonimport requestsfrom bs4 import BeautifulSoupdef get_one_page(url): try: headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36' ...原创 2020-03-19 15:03:28 · 550 阅读 · 0 评论 -
公交信息爬取
参考文章:https://blog.csdn.net/WenWu_Both/article/details/70168760?depth_1-utm_source(中间部分有改动)import requests ##导入requestsfrom bs4 import BeautifulSoup ##导入bs4中的BeautifulSoupimport osimport bs4heade...原创 2020-03-19 14:51:59 · 454 阅读 · 0 评论 -
爬虫入门一
一、爬虫基础入门1、导入库2、利用requests中的get方法,获取URL中的内容3、status_code查看是否成功,返回200表示成功encoding查看编码4、text返回数据(text返回unicode 型的数据,一般是在网页的header中定义的编码形式;而content返回的是bytes,二级制型的数据)二、百度与360中的关键字三、爬取图片四、利用爬虫查询...转载 2019-07-02 15:13:44 · 159 阅读 · 0 评论