Python爬虫
文章平均质量分 93
有关心情
在python的道路上越走越远(一个初级小白,永远的小白)
展开
-
Python爬虫系列
Python爬虫系列@(博客)[Python, 爬虫]背景由于近来学(lan)业(ai)繁(fa)忙(zuo),快一个月没有更新博客了。这周完成了两门课的结课考试,现下时间开始变得充裕。准备梳理一下前段时间学习的关于Python爬虫的内容,权当复习巩固知识。而初次学习时遇到的疑难杂症,那时候的应对策略是抓大放下,在这梳理过程会下定决心一一攻克。 由于本人技术有限,错漏处还望各友不...原创 2018-05-19 07:37:24 · 562 阅读 · 5 评论 -
Python爬虫-速度(2)
Python爬虫-速度(2)文章目录Python爬虫-速度(2)前言并发与并行异步与同步/阻塞和非阻塞多进程多线程协程+异步018.9.17前言我原有个习惯,就是每写个什么东西,都会在开头记下日期。今天得空复查这篇内容的时候,发现居然赫然显示着:018.9.17。十天就这么过去了。很难说我这10天里到底做了什么,收获了什么。因为我确实未发现自己在这时间里有如何的长进。倒是再一次加深了对...原创 2018-11-12 13:57:44 · 957 阅读 · 0 评论 -
Python爬虫-速度(1)
Python爬虫-速度(1)文章目录Python爬虫-速度(1)前言网页分析接口设计运行效果018.9.16前言其实爬虫的整个基本流程已经讲完了。无论是如何发起请求,还是解析文件,再到存储,以及处理需要js渲染的网页。入门需要掌握的,也不过这些而已。只是可能还不够,比方说速度。在我们不想用框架,如scrapy,但仍想为程序提速的时候,应该怎样解决呢?我认为大概可以从多进程,多线程,协程,...原创 2018-11-12 13:51:25 · 4365 阅读 · 0 评论 -
Python爬虫-Selenium(2)
selenium(2)@(博客)[selenium, python, 爬虫]selenium(2)前言动作链1. 拖拽2. 滑动3. 其他执行js语句其他1. Select2. alert前言上一次说了一些关于selenium的使用以及固定的配置(禁止提示,禁止加载图片,无头设置),可selenium的强大远不于此。动作链动作链...原创 2018-09-10 19:08:29 · 375 阅读 · 0 评论 -
Python爬虫-Selenium(3)
Python爬虫-Selenium(3)@(博客)[selenium, python, 爬虫, 破解极验]Python爬虫-Selenium(3)实战滑动验证思路找出滑动距离1. 干掉滑块图案2. 获取两张图片3. 获取图片的位置4. 获取移动距离模拟人操作运行效果总结实战滑动验证国家企业信用信息公式系统(上海)(http://www.sg...原创 2018-09-11 21:20:27 · 555 阅读 · 0 评论 -
Python爬虫-Selenium(1)
Python爬虫-Selenium(1)@(博客)[python, 爬虫, selenium, Python]Python爬虫-Selenium(1)前言前期准备基础使用进阶使用浏览器操作节点操作等待异常cookies其他设置禁止提示禁止加载图片无头设置实战新浪微博要求注意效果问题前言如果一定要说什么东西会记忆犹新...原创 2018-08-23 18:13:08 · 845 阅读 · 0 评论 -
Python爬虫-Redis
Python爬虫-RedisPython爬虫-Redis前言启动服务器启动客户端数据操作string键命令hashlistsetzset发布订阅主从配置与python交互利用redis实战反思前言作为跟MongoDB同样NoSQL阵营的Redis,也具有类似的“直爽快”特性。它本身读取速度快,又提供丰富的数据结构,避免程序员重复造轮子。...原创 2018-07-22 07:51:55 · 1375 阅读 · 0 评论 -
Python爬虫-MongoDB
Python爬虫-MongoDB@(博客)[python, 爬虫, mongodb, 数据库, Python]Python爬虫-MongoDB前言与MySQL对比启动/关闭MongoDB操作数据库操作集合操作数据操作增删改查保存运算符高级操作聚合常用管道常用表达式安全性与python交互018.6.19前言如...原创 2018-07-06 12:46:44 · 1055 阅读 · 0 评论 -
Python爬虫-MySQL
Python爬虫-MySQLPython爬虫-MySQL前言三范式常用字段类型约束SQL语句命令行登陆操作用户操作数据库操作表操作数据操作事务与Python交互QQ音乐之体面在最后前言在请求数据、提取数据后,我们还需要做什么呢?答案无疑是:存储数据。这之前,我们每一次都将数据保存在文本txt格式中,这没什么不可以的。但并不存在“各样问题最...原创 2018-06-27 15:28:16 · 1660 阅读 · 2 评论 -
Python爬虫-PyQuery
Python爬虫-PyQueryPython爬虫-PyQuery一些看法使用语法初始化选择标签遍历对标签操作伪类选择器*eq()的使用代码一些看法关于数据提取的四个主流方法就回顾完了,当然不用也不必全会。我个人认为正则是一定要OK的,其余三个拣一个上手即可。剩下部分,总得达到“开书了然”的境界吧。毕竟说不定什么时候就需要阅览别人的代码,你怎么管得...原创 2018-06-20 13:13:22 · 626 阅读 · 0 评论 -
Python爬虫-正则
Python爬虫-正则Python爬虫-正则前言使用语法表示字符表示个数表示边界区配分组re的高级用法贪婪与非贪婪注意项前言想说正则的知识点并不多,需要思考地方却不少。python里提取数据的方式很多,但私以为掌握那些中的某一个的同时,一定要兼顾正则。主观推崇原因有二,一:re是python的基本库,不需要额外安装且解析速度快;二:正则能做到...原创 2018-06-16 10:45:24 · 2681 阅读 · 1 评论 -
Python爬虫-xpath
Python爬虫-xpathPython爬虫-xpath说明再说明插件推荐语法讲述举栗子代码里使用实战句子迷需要的总结:说明关于Python爬虫请求数据方面的知识点基本讲完,但请求到数据之后呢? 当然是提取数据,抓出对我们有价值的内容是整个爬虫流程的关键步骤之一。现下流行方法有:xapth,BeautifulSoup,正则,PyQuery。如无意外,我...原创 2018-06-08 22:52:17 · 554 阅读 · 0 评论 -
Python爬虫-BeautifulSoup
Python爬虫-BeautifulSoupPython爬虫-BeautifulSoup“美丽汤”的爱恨使用爱丽丝文档示例标签遍历find(),findAll()综合使用支持正则CSS选择器“美丽汤”的爱恨前边说偏爱xpath,在于操作简单,解析速度较快。但不可否认:BeautifulSoup比xpath稳定。但凡网页的标签顺序发生变化(增删改),...原创 2018-06-13 22:36:35 · 1710 阅读 · 0 评论 -
Python爬虫-requests
python爬虫-requestspython爬虫-requests说明基于python3实现主要方法:异常:参数session对象说明无疑,py3上也可以使用urllib2库,但入门时走的py2路线,所以坚持了这一贯的曲风。而这之后会刻意转py3,requests库的使用就成了重中之重。可实在没什么好讲述的,有了urllib2基础之后,基于一个“使...原创 2018-05-30 18:01:25 · 807 阅读 · 0 评论 -
Python爬虫-urllib2(2)
Python爬虫-urllib2(2)@(博客)[python, 爬虫, urllib2, Python, 代理]Python爬虫-urllib2(2)post请求方式设置代理web客户端授权验证处理需要登陆账号的爬虫(Cookie)a.直接cookie法实现豆瓣的登录b.cookielib之CookieJar实现人人网旧入口登录c.cookielib之LWPCookie...原创 2018-05-21 09:30:23 · 447 阅读 · 0 评论 -
Python爬虫-urllib2(1)
Python爬虫-urllib2(1)@(博客)[python, 爬虫, urllib2, Python]Python爬虫-urllib2(1)理解响应报头和请求报头需要的库什么是url编码如何发送一个请求构建一个请求报头构建发送方式实现一个简单的、完整的爬虫小程序一个小技巧018.5.18理解响应报头和请求报头在这里不做知识延伸,我们只需要知道...原创 2018-05-19 07:48:33 · 2998 阅读 · 0 评论 -
Python爬虫-速度(3)
Python爬虫-速度(3)文章目录Python爬虫-速度(3)前言普通爬虫多进程提速多线程提速异步协程提速最后018.11.11前言早之前是以为会一口气把爬虫这个系列了结的,但不知何故,居然没做到——我肯定不会怪罪自己的拖延症呀!只是有开头就得有结尾,毕竟我是那么那么注重仪式感的人。再从GitHub把代码clone下来,发现不能用了。刨根问底,居然是学校就业网站改版,这倒令我惊奇。会是...原创 2018-11-12 14:05:19 · 2720 阅读 · 0 评论