python爬虫入门学习
文章平均质量分 79
python爬虫的基础知识和相关应用
猿胖子
不创造技术,只是技术的搬运工
展开
-
中国天气的各个城市的id,整理成json文件记录
{ "ids": [{"北京":"101010100", "海淀":"101010200", "朝阳":"101010300", "顺义":"101010400", "怀柔":"101010500", "通州":"101010600", "昌平":"101010700", "延庆":"101010800", "丰台":"101010900", "石景山":"101011000", "大兴":"101011原创 2020-12-27 22:30:52 · 1478 阅读 · 1 评论 -
python爬虫爬取B站【马保国】诶..朋友们好啊,我是混元形意太极门掌门人——马保国,独自一人撑起了B站2020年的年尾。
诶…朋友们好啊,最近逛B站,在首推页总能见到马老师的视频,每次总能被那些神仙UP主的脑洞惊呆,于是我就很好奇一个事情,马老师到底在B站有多火,只要带 马老师的视频总能上首推,我就搞了个爬虫,把视频标题带【马保国】的数据抓了一下,简单的做完数据之后,我渐渐的发现了,是我大意了,马老师真就独自一人撑起了B站的大量访问量。文章最后有彩蛋!,首先我在B站一共获取了1000条包含关键字【马保国】的数据我获取的数据中包含: 视频的链接,视频名称,UP主名称,播放量,弹幕量,上传日期、代码的话是很简单的虫子,我.原创 2020-11-27 21:18:11 · 3790 阅读 · 0 评论 -
爬虫学习笔记,从基础到部署。
爬虫基础知识:笔记中出现的代码已经全部放到了github上https://github.com/liangxs0/python_spider_save.git1.http基本原理http:协议。在HTTP之上添加了安全协议的叫https ssl域名:URL–>URI包含URL的。2.web页面的构成:html(骨架),CSS(皮肤),js(肌肉)name、status、type、size、time3.请求方法get和post区别:get有一个http的限制,url的长度不能超过1原创 2020-10-27 16:00:57 · 2072 阅读 · 3 评论 -
爬取钉钉在B站卑微道歉视频弹幕,做成词云
爬取钉钉在B站卑微道歉视频弹幕,做成词云先看用户老爷门给出得评价然后是爬取代码:很简单import requestsimport jiebaimport numpy as npfrom lxml import etreefrom wordcloud import WordCloud as wcfrom PIL import Imageurl = 'https://api.bil...原创 2020-02-17 20:58:44 · 4511 阅读 · 2 评论 -
python的ip代理池
爬取代理然后验证代理,将可用代理放入txt文件。辣鸡编码,大佬们轻喷,有问题留言。。。。。。。谢谢。结果如图import requestsfrom scrapy import Selectorstart_url = 'http://www.89ip.cn/index_1.html'url = 'http://www.89ip.cn/index_{}.html'headers =...原创 2019-12-02 11:14:15 · 955 阅读 · 0 评论 -
python3爬虫学习,抓取app(环境搭建和简单案例)
环境搭建java环境的安装,因为之后要安装Android_SDK,要与其兼容只要java8的。下载连接小弟给大佬们准备好了。java8的下载连接进入之后往下滑就可以看到。按照自己的操作系统要求进行下载,小弟这边就按照win10来了哈。注意下载的时候需要点击勾选上Accept License Agreement要不然它不让你下载,就在这个表的上头,仔细看。下载之后按照步骤一步步安装就可...原创 2019-11-10 17:44:27 · 563 阅读 · 0 评论 -
python爬虫入门学习(一)合法爬取,拒绝牢饭。
python爬虫入门学习(一)什么什爬虫其实爬虫很好理解,互联网好比是一张大网,在这张大网上有无数的站点,站点中有很多的数据信息。这时如果你需要获取某个站点的大量的数据的时候,几千几百的数据量你可以人工,当热这时候下载数据的人已经开始骂娘了。你完全可以利用计算器去做,爬虫就是一个在互联网上的一个蜘蛛,它可以根据你的需求让它帮你,你就可以去花前月下了。。。。额。注意:爬虫数据获取时必须合法,不...原创 2019-09-24 21:25:15 · 1928 阅读 · 0 评论 -
urllib的使用-python爬虫(二)- 合法爬取,拒绝牢饭。
urllib的使用简介原创 2019-09-27 15:27:02 · 631 阅读 · 0 评论 -
requests的使用-python爬虫(三) -合法爬取,拒绝牢饭
requests的使用简介如果你了解且使用过urlib的话,requests会让在爬取数据时更加简洁,requests是第三方库。因为这个神器是第三方的库,需要安装一下。利用pip对应安装就好。在使用的时候利用import的方法进行导入就好了。requests的基本用法get方法requests.get()用于请求目标网址,类型是一个HTTPresponse的类型。案例如下...原创 2019-10-10 12:00:48 · 807 阅读 · 0 评论
分享