- 博客(4)
- 收藏
- 关注
原创 python中的多线程爬虫
。,。本文是在学习网络爬虫课程期间写的,目的是为了总结所学的知识,内容都是笔者自己对多线程爬虫的理解,其中多有不足,希望不吝指教。 多线程和单线程的区别在于线程的数量(字面意思理解),但多线程中各个线程之间数据空间和代码都是共享的,且每一个线程都有自己独立的寄存器。 多线程的复杂性和优缺点也基本都是围绕着它数据空间共享的特点衍生出来的,对共享空间数据的安全性,数据操作的互斥性,容
2017-08-29 15:09:22 901
原创 python—如何使用post进行登录操作与非对称加密的破解
。,。笔者最近正在学习网络爬虫,而在爬取数据的过程中,登录是一个很棘手的问题,但有一些信息却只有登录之后才能获取到。在课程的学习后,我也查看了一些网上关于程序如何处理登录的文章,小有收获,作为初学者,文中的错误和不足希望不吝指教。 在设计爬虫程序处理登陆问题的时候,总的方式有两种,一是使用selenium模拟人的操作,由于selenium可以使用html和script的代码,我们可
2017-08-29 01:50:04 4178 1
原创 关于python中phantomjs无法访问网页的处理
。,。笔者使用的系统是linux ubuntu,最近在学习爬虫的过程中遇到了一个抓狂的问题,我尝试使用selenium加phantomjs来登陆网页的时候,Pythony一直提示selenium无法找到元素,不管我怎样修改定位的方法,永远出现No such elements的错误,让我几乎抓狂。再确认了测试了好几遍编写的代码后,我将程序出现的错误定位在了其中这几行代码里面 >>> from se
2017-08-29 01:14:46 4086 4
原创 python爬虫——用selenium和phantomjs对新浪微博PC端进行爬取(二)
。,。上一篇文章里我选择爬取简单的微博移动端,由于移动端构造简单,一般都优先爬取移动端,且因为是静态页面,我们可以直接使用xpath或者正则表达式搞定,但pc端结构就复杂得多,不能使用前面的方法。这篇文章我尝试使用selenium加phantomjs的组合,模拟人的操作来对指定微博的PC端进行爬取。 这次我们选择的种子网页依旧是工商秘密微博,但爬取信息范围更广,我们需要爬虫不止拿
2017-08-29 01:10:13 4712 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人