爬虫
文章平均质量分 81
清欢Viki
别人欣赏的永远是你骄傲的样子。
展开
-
Ubuntu 下安装phantomjs
首先声明几点1.本意是通过selenium的webdriver.Phantomjs()爬取网页数据,但除了2.1.1(最新版本)之外,selenium 已经不支持Phantomjs了,所以最好装2.1.1版本。2. 听说phantomjs的executable_path配置phantomjs的exe可执行文件路径可以解决部分问题,不过我还是没成功3.无奈之下,只好放弃pip安装这条路,...原创 2018-09-11 12:25:08 · 2732 阅读 · 0 评论 -
使用urllib爬取简书中文章标题和简介
介绍使用urllib的request方法,配合re正则进行静态页面基本数据爬取代码import refrom urllib import request# headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome...原创 2019-07-15 10:07:55 · 267 阅读 · 0 评论 -
requests爬取Ajax内容
介绍传统的urllib只能爬取静态网站,像Ajax内容则无法显示。所以想爬取,可以使用requests方法代码示例http://www.kfc.com.cn/kfccda/storelist/index.aspx的爬取1.打开网站后,打开开发者工具(F12),点击XHR,该栏目只显示ajax的请求注意到,请求URL是http://www.kfc.com.cn/kfccd...原创 2019-07-15 15:55:53 · 2679 阅读 · 0 评论 -
requests配合etree爬取豆瓣电影信息
背景爬虫最常见的爬去方式就是requests+etree的方式了,用豆瓣电影的信息来做简单案例url: https://movie.douban.com/cinema/later/beijing/代码import requestsfrom lxml import etreeimport pandas as pdclass dangdang_home(object): ...原创 2019-07-16 11:30:56 · 578 阅读 · 0 评论 -
AES加密
介绍AES是一种对称加密,使用同一个密钥来加密和解密一段密文安装pip install pycryptodome基础语法aes = AES.new(key,AES.MODE,iv)#加密aes.encrypt(content)#解密aes.decrypt(content)key自定义的密匙AES.MODE(用于加密或解密的链接模式) ECB:是...原创 2019-07-16 11:57:50 · 643 阅读 · 0 评论 -
RSA加密
简介RSA是一种非对称加密算法,使用openssl ,keytools等工具生成一对公私钥对,使用被公钥加密的数据可以使用私钥来解密,反之亦然(被私钥加密的数据也可以被公钥解密)。在实际使用中私钥一般保存在发布者手中,是私有的不对外公开的,只将公钥对外公布,就能实现只有私钥的持有者才能将数据解密的方法。 这种加密方式安全系数很高,因为它不用将解密的密钥进行传递,从而没有密钥在传递过程中被截...原创 2019-07-16 14:47:44 · 767 阅读 · 0 评论