- 博客(14)
- 资源 (7)
- 收藏
- 关注
原创 【Python3.6爬虫学习记录】(十四)多线程爬虫模板总结
一 多线程Threading模块1-1 简单的函数创建多线程2-1 用类包装线程对象二 多线程Queue模块2-1 使用Queue 与 Threading模块三 多进程并发模块3-1 Queue 与 Threading实现并发3-2 multiprocessing模块实现并发
2017-08-23 10:01:06 2097
原创 【Python3.6爬虫学习记录】(十二)PhantomJS模拟登陆并爬取教务处学生照片(哈工大)
前言:这也不算心血来潮的事情,前面几天文章都涉及过,之前一直觉得很麻烦。必须SSLVPN登陆,到教务处页面,然后进行页面跳转到照片页面。所以每次打开图片页面都要保证登陆教务处,当然可以使用cookies模拟登陆(准备到学校后再尝试这种方法),但是在这之前还要登陆SSLVPN进行跳转,所以并不可取。 当时没有技术支持,这几天都在用PhantomJS,发现了几种功能–新建标签页,页面元素截图。
2017-08-21 08:27:27 2097 2
原创 【Python3.6爬虫学习记录】(十一)使用代理IP及用多线程测试IP可用性--刷访问量
第一部分 requests ChromeDriver PhantomJS的代理IP使用1-1 requests使用代理IP1-2 ChromeDriver使用代理IP1-3 PhantomJS使用代理IP第二部分测试代理IP的可用性2-1 未使用线程测试2-2 使用多线程测试
2017-08-19 21:04:58 3365
原创 【Python3.6爬虫学习记录】(十)爬取教务处成绩并保存到Excel文件中(哈工大)
前言:基本上每天都会产生一点小想法,在实现的过程中,一步步解决问题,并产生新的想法,就比如,这次是保存为Excel文件。这感觉很美妙!目录: 一,安装并简单使用xlwt 1.1 安装xlwt 1.2 写入Excel代码 1.3 拓展 二,登陆教务处爬取成绩 2.1 实现图解 2.2 代码及注释 2.3 相关问题 三,More
2017-08-18 20:31:46 4704 1
原创 【Python3.6爬虫学习记录】(九)模拟登陆QQ空间爬取好友所有留言并制作词云
**第一部分 Selenium+Chrome爬取空间留言** 1.1 使用说明 1.2 代码及注释 1.3 相关问题**第二部分 jieba进行分词** 2.1 环境配置 2.2 代码 2.3 注意事项**第三部分 Word Art制作词云** 3.1 注意事项
2017-08-17 00:32:32 2641
原创 【Python3.6爬虫学习记录】(八)Selenium模拟登录新浪邮箱并发送邮件
Selenium很好使用,下面写了三个函数,分别用来:login_163() –> 登陆163邮箱(手动点击验证码) login_qzone() –> 登陆QQ空间(快捷登录) login_sina_post() –> 登陆新浪邮箱并发送邮件其中发送邮件部分,忙活了大半天,各种百度,总算解决。遇到不少经典问题,在后面列出。# 测试 selenium的使用# 有些网页需要登陆才能打开from
2017-08-17 00:12:09 11829 1
原创 【Python3.6爬虫学习记录】(七)使用Selenium+ChromeDriver爬取知乎某问题的回答
本文主要介绍selenium的安装,以及chromedriver的安装及遇到的问题,以及使用selenium自动打开谷歌浏览器,自动对页面向下滑动,然后读取源码,进行回答的读取保存。
2017-08-15 21:11:56 4545 1
转载 【Python3.6爬虫学习记录】(六)urllib详细使用方法(header,代理,超时,认证,异常处理)
基本解决了我的混乱的思路 python3 抓取网页资源的 N 种方法
2017-08-14 22:11:42 639
原创 【Python3.6爬虫学习记录】(五)Cookie的使用以及简单的爬取知乎
前言 Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)。 有些网站需要登录后才能访问某个页面,比如知乎的回答,QQ空间的好友列表、微博上关注的人和粉丝等,在登录之前,你想抓取某个页面内容是不允许的。
2017-08-14 20:59:01 1757
原创 【Python3.6爬虫学习记录】(三)简单的爬虫实践-豆瓣《河神》演员图片及姓名
前言:将之前的爬取图片和文字简单的应用了一下,期间遇到一些问题,主要是因为之前只是简单的学习了Python,导致一些语法,不过关。但是,解决了问题之后,还是比较兴奋的。 爬取豆瓣河神演员照片
2017-08-12 21:03:54 809 3
原创 【Python3.6爬虫学习记录】(二)使用BeautifulSoup爬取简单静态网页文章
前言:自学第二天,大致搞懂,要学什么,要怎么学的问题。 与我而言,主要是针对一些库来循序渐进:requests(urllib)->BeautifulSoup(re,xpath)->selenium(PhantomJS)->scrapy 如何入门Python爬虫?-知乎BeautifulSoup的安装: 命令提示符程序下输入: pip install beautifulsoup
2017-08-12 20:38:57 4431
原创 【Python3.6爬虫学习记录】(一)爬取简单的静态网页图片
前言:之前跟着廖雪峰的教程简单的学习了最基本的python语法,还没学完,小学期又认真的学习了java,暑假闲来无事,着手学习python爬虫。开学就大二了,然而还是各种小白(文中会提到很多小白,痴问题)。千里之行始于足下,百尺高楼起于垒土。学习计划:跟着网上的教程敲代码,再自己写一个,了解个中奥妙,一个知识点一个知识点的突破,边学边查。 学习Python爬虫的精华摘要爬虫代码及注释:#本部分内容
2017-08-11 17:59:21 5346 4
XChange_Editor_Plus
2018-10-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人