python爬虫
一行玩python
python超级爱好者,公众号「一行玩python」关注领取5T编程资料,有任何学习问题都可以联系我,微信yihangpy,从入门到就业
展开
-
一分钟爬取知乎5646个知乎回答(内附代码)
不浪费大家时间,先上目录,选择性阅读1.爬取介绍2.代码展示3.结果展示4.福利分享批量爬取知乎回答灵魂拷问你有多久没读过一本书了?你知道什么书最值得读吗?你有多久没看过一部电影了?你知道什么电影最值得看吗?有人说,我知道可以去看豆瓣评分,按照评分高低排序选书,但是往往评分高的输却不容易阅读,比如说评分高的不一定容易理解,比如下图介绍的《量子力学》,评分高达9.6,五星好评,可惜工作...原创 2020-04-21 10:52:21 · 2002 阅读 · 0 评论 -
python爬虫的Selenium库详解
文章目录1.Selenium介绍2.基本使用3.声明浏览器对象4.访问页面5.查找元素5.1单个元素5.2多个元素6.元素交互操作7.交互动作8.执行JavaScript9.获取元素信息9.1获取属性9.2获取文本值9.3获取ID、位置、标签名、大小10.Frame11.等待11.1隐式等待11.2显式等待12前进后退13.Cookies14.选项卡管理15.异常处理1.Selenium介绍自...原创 2019-05-30 11:13:20 · 2069 阅读 · 0 评论 -
python爬虫的基本原理
1.什么是爬虫网络爬虫,请求网站并提取数据的自动化程序2.爬虫基本流程发起请求获取响应内容解析内容保存数据3.什么是Request和Response?4.Request中包含什么请求方式主要有Get,POST两种类型另外还有HEAD,PUT,DELETE,OPTIONS等请求URLURL全称统一资源定位符,如一个网页文档、一张图片、一个视频等都可以用URL唯一来确...原创 2019-05-28 16:32:52 · 1669 阅读 · 0 评论 -
python爬虫的urllib库详解
1.什么是Urllibpython内置的HTTP请求库urllib.request 请求模块urllib.error 异常处理模块urllib.parse url解析模块urllib.robotparser robots.txt 解析模块2.相对于Python2的变化Python2import urllib2response = urllib2.urlopen(“http:/...原创 2019-05-28 17:54:55 · 2084 阅读 · 0 评论 -
python爬虫的实战思路
3.1Requests+正则表达式爬取猫眼电影TOP100抓取单⻚内容利⽤requests请求⽬标站点,得到单个⽹⻚HTML代码,返回结果。正则表达式分析根据HTML代码分析得到电影的名称、主演、上映时间、评分、图⽚链接等信息。开启循环及多线程对多⻚内容遍历,开启多线程提⾼抓取速度。保存⾄⽂件通过⽂件的形式将结果保存,每⼀部电影⼀个结果⼀⾏Json字符串。3.2分析Ajax请...原创 2019-06-01 12:07:14 · 1654 阅读 · 0 评论 -
python爬虫的requests库详解
文章目录1.requests是什么2.安装3.requests3.1实例引入3.2 各种请求方式请求基本GET请求基本写法带参数GET请求解析json获取二进制数据添加headers基本POST请求响应reponse属性状态码判断高级操作文件上传获取cookie会话维持证书验证代理设置超时设置认证设置异常处理1.requests是什么Requests 是⽤Python语⾔编写,基于urlli...原创 2019-05-29 16:23:54 · 1967 阅读 · 0 评论 -
python正则表达式
文章目录正则表达式1.什么是正则表达式2.常见匹配模式3.re.match3.1最常规的匹配3.2泛匹配3.3匹配目标3.4贪婪匹配3.5非贪婪匹配3.6匹配模式3.7转义4.re.search4.1匹配演练5.re.findall5.1re.sub6.re.compile7.实战练习正则表达式1.什么是正则表达式正则表达式是对字符串操作的⼀种逻辑公式,就是⽤事先定义好的⼀些特定字符、及这些...原创 2019-05-29 16:30:03 · 5596 阅读 · 0 评论 -
python爬虫的BeautifulSoup库详解
文章目录1.解析库2.基本使用3.标签选择器3.1选择元素3.2获取名称3.3获取属性3.4获取内容3.5嵌套选择3.6子节点和子孙节点3.7父节点和祖先节点3.8兄弟节点4标准选择器4.1find_all( name , attrs , recursive , text , **kwargs )4.1.1name4.1.2attrs4.1.3text4.2find( name , attrs ,...原创 2019-05-29 17:29:01 · 36675 阅读 · 2 评论