爬虫案例
爬虫相关案例
努力学习各种软件
被各种软件折磨的研一狗
展开
-
爬取某乎专栏文章html格式,并转到pdf保存
【代码】爬取某乎专栏文章html格式,并转到pdf保存。原创 2024-03-11 10:07:41 · 527 阅读 · 0 评论 -
爬取某网站电影评论
如果再也不能见到你,祝你早安,午安,晚安。从一出生就在全世界关注下,父母朋友亲人甚至所有30年的人生轨迹都在设定中的楚门,在逐渐剥开疑团揭露残酷真相后,他有勇气走出这个巨大的牢笼,而我们每个人又何尝不是楚门,都在某种程度上被设定被限制被禁锢,又有几个会寻找自由挣脱桎梏。沉歌 打开这道门,即便现实再最肮脏也请让我自己感受!关掉你的镜头,即使现实再无奈你也必须自己体验!伊卡洛斯 他用别人的相片拼凑出她的样子, 在这个虚假的,冷漠无情的世界里只有这份思念是唯一的真实 2010-03-25 14:01:04。原创 2024-03-12 10:36:36 · 577 阅读 · 0 评论 -
爬取12306全国各车站信息以及输入信息查询车次
1.查询全国各车站信息并保存为json格式。原创 2024-03-11 15:42:58 · 338 阅读 · 0 评论 -
用快代理换Ip爬取boss直聘招聘信息
总结:在这个案例中,它的cookie是频繁变化的, 不加cookie,访问不到数据,加了cookie,时间长了之后会失效。所以这又回到了逆向的方面,它的cookie是如何生成的,我该如何生成cookie?令我奇怪的是在cookie时效呢,加了proxies=proxies反而会报错,不知道为啥。尝试了用快代理免费的代理池,用于更换ip,以防止封ip类型的反扒手段。原创 2024-02-29 12:46:57 · 235 阅读 · 0 评论 -
输入文章id,爬取小红书某文章下所有评论
学到了如何处理时间戳函数。原创 2024-03-04 15:50:56 · 959 阅读 · 1 评论 -
爬取飞卢小说,并计算文本中词语出现的次数
【代码】爬取飞卢小说,并计算文本中词语出现的次数。原创 2024-03-03 17:57:43 · 191 阅读 · 0 评论 -
jupyter 用pyecharts进行数据分析
因为我是用的pycharm,所以我直接在pycharm项目终端中下载pip install jupyter,pip install pyecharts。在你下载的项目路径中输入jupyter notebook。一定要另起一行写展示代码。最常见的问题是不出图。原创 2024-03-02 13:24:50 · 633 阅读 · 0 评论 -
基于小红书评论的文本词语频数挖掘和词云图
使用jieba库,对文本数据进行分词,并统计出现频数。根据出现的词汇和频数,做词云图。原创 2024-03-04 16:12:44 · 260 阅读 · 0 评论 -
爬取笔趣阁玄幻-元尊小说内容
注意:换一个headers,就可以了,但是爬久了,会被禁止访问,可以去买一个ip 试试看。# 列表转化为字符串。原创 2023-12-11 16:50:57 · 495 阅读 · 1 评论 -
爬虫爬取新浪财经纸浆行业期货年线数据
csv_writer = csv.DictWriter(f,fieldnames=['日期','开盘','最高','最低','收盘','成交量','均价'])f = open('年线.csv',mode='a',encoding='utf-8',newline='')'成交量': json_data['v'],'开盘': json_data['o'],'最高': json_data['h'],'最低': json_data['l'],'收盘': json_data['c'],原创 2023-12-17 15:24:02 · 1062 阅读 · 1 评论 -
爬取中国福利彩票网双色球中奖相关信息
'四等奖中奖注数','四等奖中奖金额','五等奖中奖注数','五等奖中奖金额','六等奖中奖注数','六等奖中奖金额','七等奖中奖注数','一等奖中奖注数','一等奖中奖金额','二等奖中奖注数','二等奖中奖金额','三等奖中奖注数','三等奖中奖金额',csv_writer = csv.DictWriter(f,fieldnames=['期号','开奖日期','红球','蓝球','一等奖中奖金额': index['prizegrades'][0]['typemoney'],原创 2023-12-16 12:33:13 · 817 阅读 · 0 评论 -
爬取上海链家二手房源信息源码分享
csv_writer.writerow(['介绍','地址','户型','面积','装修','楼层','样式','总价','均价'])f = open('数据.csv',mode='a',encoding='utf-8',newline='')sum_price = Sum_price_list[i]+'万' # 房子的总价。avg_price = avg_price_list[i] # 房子的均价。# '样式':build_type,# '均价':avg_price,原创 2023-12-04 17:41:41 · 848 阅读 · 0 评论 -
爬取12306某地到某地的车票查询源码分享
index_list = index.replace('有','Yes').replace('无','No').split('|') # 字符串分割方法,分割返回的是列表数据。start_time = index_list[8] # 出发时间。start_time = index_list[8] # 出发时间。end_time = index_list[9] # 到达时间。end_time = index_list[9] # 到达时间。num = index_list[3] #车次。原创 2023-12-09 10:28:46 · 406 阅读 · 0 评论 -
爬取第一试卷网高三数学试卷并下载到本地
对于类还是很不熟,我想要类中的方法返回的值,可以直接传入类中的其他方法,应该怎么写呢?我想要写一个类,传入一个url,直接下载所需要的数据,即最终代码为。不需要上面那么复杂的传来传去,应该怎么做呢?原创 2024-01-25 21:43:57 · 766 阅读 · 0 评论 -
自动答题脚本,自动答题驾考试题
【代码】自动答题脚本,自动答题驾考试题。原创 2024-01-25 21:45:49 · 165 阅读 · 0 评论 -
爬取某付费网站文档保存为html文件
【代码】爬取某付费网站文档保存为html文件。原创 2024-01-26 19:59:47 · 661 阅读 · 0 评论 -
爬取飞卢小说免费的小说内容
如'\n'.join(selector.css('.noveContent p ::text').getall())打开开发者工具方法:F12(键盘)/fn+f12/ctrl+shift+i。str.join(列表)原创 2024-02-23 16:33:06 · 439 阅读 · 0 评论 -
爬取北京2020到2022各月天气数据
【代码】爬取北京2020到2022各月天气数据。原创 2024-02-23 21:28:50 · 119 阅读 · 0 评论 -
爬虫入门,爬取豆瓣top250电影信息
【代码】爬虫入门,爬取豆瓣top250电影信息。原创 2024-01-19 17:58:47 · 888 阅读 · 0 评论 -
爬取咚漫漫画
1.获得图片url地址,如果访问遇到403 Forbidden 在下载图片时,要加上防盗链refer。下载的很慢,怎么写代码让程序运行的更快呢?原创 2024-01-24 20:13:01 · 390 阅读 · 0 评论 -
爬取涛声网音频
1.这同样是一个动态加载的页面,在xhr中找到包后,发现跟前面爬好看视频的不同点在于,它不是json的数据格式,不确定链接在不在里面(其实是在的,用正则解析可以轻松获取)2.所以首先还是打开一个音频,在media中找到他,复制url的关键部分,在All中搜索,找他含有这个链接的包,发现就是xhr获取到的。3.接下来按照常规步骤走,复习了一遍os ,re.find all,zip,with open的用法。filename = '声音//'原创 2024-01-03 21:11:31 · 435 阅读 · 0 评论 -
python实现自动发送弹幕
具体操作,首先进入b站一个直播间,点击network,发送一个弹幕,会发现出现一个send包,对这个包中的url发送请求,post参数,headers请求头都要带完整,其中post参数中的roomid代表直播房间号,msg表示发送的内容。深入学习爬虫后,发现爬虫能做的比我想象得多,包括自动答题脚本,发送弹幕等等。lis = ['666','主播真棒','主播很帅','哈哈']time.sleep(数字)代表延时多少秒操作。1.random模块随机选择列表中的元素。random随机选择1到10中的数字。原创 2024-01-07 13:48:20 · 613 阅读 · 0 评论 -
Python爬取解放号外包需求案例,利用post参数多页爬取
csv_writer.writerow(['标题','编号','开始时间','结束时间','价格','状态','类型','投标人数','详情页'])难点注意:观察不同页之间的差距,发现只有参数中pageno发生了变化。亲测有效,没有反爬,换个headers即可。f = open('外包数据.csv',mode='a',encoding='utf-8',newline='')原创 2023-12-30 09:16:36 · 1213 阅读 · 0 评论 -
爬取彼案壁纸
复习了一番,注意编码的问题,response.encoding=response.apparent_encoding。点击.*可以用正则表达式,如果用正则表达解析数据,可以在这里尝试,可以看见匹配的数量,然后再写入代码中。1.print(response.text)后,在下方,按住ctrl+f键可以搜索如下图。如:a=[(1,'as'),(2,'ajsh'),(781,'ajhsasa')]2.列表中嵌套元祖,如何快速找出元祖中的元素。总结:这个案例不难,静态网页,爬取二进制数据。原创 2024-01-06 14:00:23 · 900 阅读 · 0 评论 -
爬取国家法律法规数据库法律条文
总结:涉及到了逆向的知识,之后来总结。原创 2024-01-09 20:29:53 · 1080 阅读 · 2 评论 -
爬取去哪网旅游攻略信息
1.进一步熟悉了用css选择器去解析代码,这是两个静态网页信息提取。2.学到了如何快速提取列表中的全部元素,当作一个字符串的方法。c=['自驾游', '旅行团',' 暴走']自驾游 旅行团 暴走。原创 2024-01-08 13:31:08 · 865 阅读 · 0 评论 -
爬取猫咪交易网
3.这一案例属于两静态 页面抓取,信息都在页面代码中,抓包容易,难点在于如何解析数据。我想要匹配电话,却总是空,把上面的连在一起匹配,也是一样,是换行符的问题吗?2.像这种抓爬静态页面,零碎的信息,用css选择器更好!反思与总结:1.如何用正则匹配html中换行的数据,如。filename = '声音//'爬取猫咪品种,价格等在售数据。原创 2024-01-05 15:27:13 · 811 阅读 · 0 评论