python
文章平均质量分 82
rosepicker
这个作者很懒,什么都没留下…
展开
-
python-微博模拟登录
相比于上一篇知乎模拟登录,本篇的微博模拟登录则更为复杂一些。打开firefox的开发者模式,清楚相关网站的cookies,以防因为某些重要文件已经被缓存,而观察不到相应的HTTP交互。进行微博登录,观察HTTP交互状况,以下将对过程进行分析:第一步:预登录 现在很多网站都会进行预登录,对输入的用户名进行编码或者加密处理。 该请求对应的响应为: sinaSSOController.pre原创 2017-09-07 15:25:57 · 5199 阅读 · 1 评论 -
python-知乎模拟登录
本篇文章用于记录如何实现知乎模拟登录本篇采用firefox浏览器,按F12开发者工具来进行HTTP交互的获取和分析。需要设置开发者工具中的preserve log选项,否则会因为HTTP交互过多,无法参考中间过程的HTTP请求和回应登录知乎,通过开发者工具来查看HTTP交互,发现实际的登录地址为https://www.zhihu.com/login/email. 这是我们使用email进行登录,如果原创 2017-09-04 15:22:46 · 1992 阅读 · 0 评论 -
Python的重要课题的学习连接
python的生成器和yield的详细介绍:http://www.jb51.net/article/59671.htmpython协程以及异步IO:http://python.jobbole.com/87202/原创 2017-08-14 15:14:15 · 442 阅读 · 0 评论 -
python爬虫-多进程
python当中因为一个进程同一时刻只能执行一个线程,所以多线程效率并不高,要提高效率需要使用多进程。Process([group [, target [, name [, args [, kwargs]]]]])target表示调用对象,你可以传入方法的名字args表示被调用对象的位置参数元组,比如target是函数a,他有两个参数m,n,那么args就传入(m, n)即转载 2017-07-21 16:27:33 · 401 阅读 · 0 评论 -
python爬虫-正则表达式
正则表达式是十分高效而优美的匹配字符串工具,一定要好好掌握。利用正则表达式可以轻易地从返回的页面中提取出我们想要的内容。1)贪婪模式与非贪婪模式python默认是贪婪模式。贪婪模式,总是尝试匹配尽可能多的字符;非贪婪模式,总是尝试尽可能少的字符。一般采用非贪婪模式来提取。2)反斜杠问题正则表达式里使用"\"作为转义字符,这会造成困扰。如果你要匹配文中的字符"\"转载 2017-07-21 11:34:42 · 250 阅读 · 0 评论 -
python爬虫利器-request库
request库比urllib2库更为高级,因为其功能更强大,更易于使用。使用该库可以十分方便我们的抓取。基本请求r = requests.get('http://cuiqingcai.com')r = requests.post("http://httpbin.org/post")r = requests.put("http://httpbin.org/put")r =转载 2017-07-21 09:50:14 · 290 阅读 · 0 评论 -
python爬虫-cookie
Cookie指某些网站为了辨别用户身份,进行session跟踪而存储在用户本地终端上的数据(经过加密)。例如:网站的某些页面必须登录后才可以抓取,但你通过urllib2库保存我们登录该网站的Cookie,就可以对该页面进行抓取。cookielib提供可存储cookie的对象,通过本模块的CookieJar类的对象来捕获cookie并在后续连接请求是重新发送。1)抓取Co转载 2017-07-21 09:01:03 · 195 阅读 · 0 评论 -
python爬虫-异常处理
主要有两类异常 :URLError和HTTPErrorURLError:该异常发生的情况:1.网络无法连接2.连接不到特定服务器3.服务器不存在import urllib2 requset = urllib2.Request('http://www.xxxxx.com')try: urllib2.urlopen(request)except urll转载 2017-07-20 16:56:16 · 278 阅读 · 0 评论 -
Python爬虫-urllib库
通过构建一个request请求发送,然后获取回应response,也就是网页代码import urllib2request = urllib2.Request("www.baidu.com")response = urllib2.urlopen(request)pageCode = response.read().decode('gbk')数据传送分为两种方式:GE转载 2017-07-20 16:34:04 · 225 阅读 · 0 评论 -
python学习问题总结
bytes和str之间的转换: python调用windows_api的时候进程出现api只接受bytes型或int型的参数,而获取的参数则是str类型,此时就需要进行str和bytes之间的转换 bytes object b = b"example" str object s = "example" #str to bytes bytes原创 2015-08-24 14:04:40 · 385 阅读 · 0 评论 -
spider小白-初探Scrapy
Scrapy框架可以帮我们处理一部分事情,从而减轻我们的负担。更重要的是,Scrapy框架使用了异步的模式可以加快下载速度,而自己手动实现异步模式是十分麻烦的事情。Scrapy框架的安装就不提了,下面演示怎么生产Scrapy项目。 然后使用pycharm打开生成的项目zhilianproject,工程目录如下: 其中myRedisCommand.py mySqlCommand.py zh原创 2017-11-12 22:38:10 · 490 阅读 · 0 评论