自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

子耶

https://iseesaw.github.io

  • 博客(14)
  • 资源 (7)
  • 收藏
  • 关注

原创 【Python3.6爬虫学习记录】(十四)多线程爬虫模板总结

一 多线程Threading模块1-1 简单的函数创建多线程2-1 用类包装线程对象二 多线程Queue模块2-1 使用Queue 与 Threading模块三 多进程并发模块3-1 Queue 与 Threading实现并发3-2 multiprocessing模块实现并发

2017-08-23 10:01:06 2097

原创 【Python3.6爬虫学习记录】(十三)在阿里云服务器上运行爬虫

云服务器的选择远程桌面连接上传下载文件在云服务器上一直运行爬虫

2017-08-21 19:49:48 14181

原创 【Python3.6爬虫学习记录】(十二)PhantomJS模拟登陆并爬取教务处学生照片(哈工大)

前言:这也不算心血来潮的事情,前面几天文章都涉及过,之前一直觉得很麻烦。必须SSLVPN登陆,到教务处页面,然后进行页面跳转到照片页面。所以每次打开图片页面都要保证登陆教务处,当然可以使用cookies模拟登陆(准备到学校后再尝试这种方法),但是在这之前还要登陆SSLVPN进行跳转,所以并不可取。 当时没有技术支持,这几天都在用PhantomJS,发现了几种功能–新建标签页,页面元素截图。

2017-08-21 08:27:27 2097 2

原创 【Python3.6爬虫学习记录】(十一)使用代理IP及用多线程测试IP可用性--刷访问量

第一部分 requests ChromeDriver PhantomJS的代理IP使用1-1 requests使用代理IP1-2 ChromeDriver使用代理IP1-3 PhantomJS使用代理IP第二部分测试代理IP的可用性2-1 未使用线程测试2-2 使用多线程测试

2017-08-19 21:04:58 3365

原创 【Python3.6爬虫学习记录】(十)爬取教务处成绩并保存到Excel文件中(哈工大)

前言:基本上每天都会产生一点小想法,在实现的过程中,一步步解决问题,并产生新的想法,就比如,这次是保存为Excel文件。这感觉很美妙!目录: 一,安装并简单使用xlwt 1.1 安装xlwt 1.2 写入Excel代码 1.3 拓展 二,登陆教务处爬取成绩 2.1 实现图解 2.2 代码及注释 2.3 相关问题 三,More

2017-08-18 20:31:46 4704 1

原创 【Python3.6爬虫学习记录】(九)模拟登陆QQ空间爬取好友所有留言并制作词云

**第一部分 Selenium+Chrome爬取空间留言** 1.1 使用说明 1.2 代码及注释 1.3 相关问题**第二部分 jieba进行分词** 2.1 环境配置 2.2 代码 2.3 注意事项**第三部分 Word Art制作词云** 3.1 注意事项

2017-08-17 00:32:32 2641

原创 【Python3.6爬虫学习记录】(八)Selenium模拟登录新浪邮箱并发送邮件

Selenium很好使用,下面写了三个函数,分别用来:login_163() –> 登陆163邮箱(手动点击验证码) login_qzone() –> 登陆QQ空间(快捷登录) login_sina_post() –> 登陆新浪邮箱并发送邮件其中发送邮件部分,忙活了大半天,各种百度,总算解决。遇到不少经典问题,在后面列出。# 测试 selenium的使用# 有些网页需要登陆才能打开from

2017-08-17 00:12:09 11829 1

原创 【Python3.6爬虫学习记录】(七)使用Selenium+ChromeDriver爬取知乎某问题的回答

本文主要介绍selenium的安装,以及chromedriver的安装及遇到的问题,以及使用selenium自动打开谷歌浏览器,自动对页面向下滑动,然后读取源码,进行回答的读取保存。

2017-08-15 21:11:56 4545 1

转载 【Python3.6爬虫学习记录】(六)urllib详细使用方法(header,代理,超时,认证,异常处理)

基本解决了我的混乱的思路 python3 抓取网页资源的 N 种方法

2017-08-14 22:11:42 639

原创 【Python3.6爬虫学习记录】(五)Cookie的使用以及简单的爬取知乎

前言 Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)。 有些网站需要登录后才能访问某个页面,比如知乎的回答,QQ空间的好友列表、微博上关注的人和粉丝等,在登录之前,你想抓取某个页面内容是不允许的。

2017-08-14 20:59:01 1757

原创 【Python3.6爬虫学习记录】(四)爬取百度贴吧某帖子内容及图片

本文主要涉及一些BeautifulSoup的的用法

2017-08-14 20:17:03 813

原创 【Python3.6爬虫学习记录】(三)简单的爬虫实践-豆瓣《河神》演员图片及姓名

前言:将之前的爬取图片和文字简单的应用了一下,期间遇到一些问题,主要是因为之前只是简单的学习了Python,导致一些语法,不过关。但是,解决了问题之后,还是比较兴奋的。 爬取豆瓣河神演员照片

2017-08-12 21:03:54 809 3

原创 【Python3.6爬虫学习记录】(二)使用BeautifulSoup爬取简单静态网页文章

前言:自学第二天,大致搞懂,要学什么,要怎么学的问题。 与我而言,主要是针对一些库来循序渐进:requests(urllib)->BeautifulSoup(re,xpath)->selenium(PhantomJS)->scrapy 如何入门Python爬虫?-知乎BeautifulSoup的安装: 命令提示符程序下输入: pip install beautifulsoup

2017-08-12 20:38:57 4431

原创 【Python3.6爬虫学习记录】(一)爬取简单的静态网页图片

前言:之前跟着廖雪峰的教程简单的学习了最基本的python语法,还没学完,小学期又认真的学习了java,暑假闲来无事,着手学习python爬虫。开学就大二了,然而还是各种小白(文中会提到很多小白,痴问题)。千里之行始于足下,百尺高楼起于垒土。学习计划:跟着网上的教程敲代码,再自己写一个,了解个中奥妙,一个知识点一个知识点的突破,边学边查。 学习Python爬虫的精华摘要爬虫代码及注释:#本部分内容

2017-08-11 17:59:21 5346 4

Chrome32_49.0(适用Win XP)

Chrome32_49,谷歌浏览器32位版本49 适用于Windows XP

2018-11-11

模式识别和机器学习PRML英文版高清带书签

Pattern Recognition and machine learning 模式识别和机器学习PRML英文版高清带书签

2018-10-12

机器学习实战 (单页扫描版,带书签)

机器学习实战,Machine Learning in Action中文版 高清扫描版, 单页版,带目录书签

2018-10-05

XChange_Editor_Plus

pdf编辑器 XChange_Editor The new PDF-XChange Editor, the worthy successor of PDF-XChange Viewer, does not only include all features of PDF-XChange Viewer, including the only recently added OCR feature, but now also provides you with an option to edit existing PDF documents.

2018-10-05

机器学习实战(单页高清扫描版)

Machine Learning in Action中文版,机器学习实战,单页版

2018-10-05

PRML模式识别和机器学习(带书签)

Pattern Recognition And Machine Learning的中文版,模式识别和机器学习,有完整书签

2018-10-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除