![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
南巷的花猫
陪我久点吧 久到我会陪你一起长大 如果不出意外的话 这辈子我都不会先放开你的手
展开
-
selenium实例登陆拉勾网 外加手动验证验证码
selenium模拟登陆拉钩网from selenium import webdriverfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECimport os, json, timefrom urlli...原创 2020-02-26 19:36:00 · 743 阅读 · 0 评论 -
爬虫selenium:selenium基本操作
1-Selenium简介:Selenium是一个用于web自动化测试的工具,Selenium测试直接运行在浏览器中,就好像一个真正的用户在操作一样, 支持大部分主流的浏览器,包括IE(7,8,9,10,11),Firefox,Safari,Chrome,Opera等。我们可以利用它来模拟用户点击访问网站,绕过一些复杂的认证场景通过selnium+驱动浏览器这种组合可以直接渲染解析js,绕过大部...原创 2020-02-25 16:52:57 · 426 阅读 · 0 评论 -
爬虫JS渗透百度翻译
目的:通过js渗透实现本地翻译 即将百度翻译的工作在本地实现首先获取百度翻译的链接:https://fanyi.baidu.com/ 将要翻译的语种写在上面对比翻译不同的语种 可能是sign以及token值发生改变 所以接下来的目的就是找到sign值以及token值将找到的js放入本地中 注意:这里需要pip install execjs 当然使用execjs小樱桃...原创 2020-02-24 15:30:08 · 302 阅读 · 0 评论 -
非对称加密rsa算法
指的是加密和解密使用不同的秘钥。一把作为公开的公钥,另一把作为私钥。这对密钥中的公钥进行加密,私钥用于解密。反之亦然(被私钥加密的数据也可以被公钥解密) 。在实际使用中私钥一般保存在发布者手中,是私有的不对外公开的,只将公钥对外公布,就能实现只有私钥的持有者才能将数据解密的方法。 这种加密方式安全系数很高,因为它不用将解密的密钥进行传递,从而没有密钥在传递过程中被截获的风险,而破解密文...原创 2020-02-20 10:29:04 · 122 阅读 · 0 评论 -
AES加密
AES为分组密码,分组密码也就是把明文分成一组一组的,每组长度相等,每次加密一组数据,直到加密完整个明文。在AES标准规范中,分组长度只能是128位,也就是说,每个分组为16个字节(每个字节8位)。密钥的长度可以使用128位、192位或256位。密钥的长度不同,推荐加密轮数也不同。代码效果如图:...原创 2020-02-20 10:11:06 · 165 阅读 · 0 评论 -
常见加密算法之DES加密
DES试用于对称加密 公私钥相同代码执行效果如图:原创 2020-02-20 10:08:33 · 111 阅读 · 0 评论 -
常见加密算法篇之单向加密 MD5 SHA系列算法
单向加密是指只能对明文数据进行加密,而不能解密数据。举个栗子:每个人都有不同的指纹,看到这个人,可以得出他的指纹等信息,并且唯一对应,但你只看一个指纹,是不可能看到或读到这个人的长相或身份等信息。常见方法:MD5 SHA代码执行效果...原创 2020-02-20 10:05:45 · 422 阅读 · 0 评论 -
爬虫实例6:使用pyspider爬取链家网长春市南宁区的最近二手房更新信息
1-首先下载pyspiderpip install pyspider2-在任意一个文件夹下执行命令 启动pyspiderpyspider 或者 pyspider all3-执行命令后 创建项目4-创建项目后 进入项目 编写代码from pyspider.libs.base_handler import *from fake_useragent import UserAgentu...原创 2019-12-31 15:08:15 · 392 阅读 · 0 评论 -
爬虫实例5:使用scrapy框架获取链家网二手房最新信息(获取单个城市所有街区二手房信息可以使用selenium动态获取页数)
1-首先进行分析链家网 链家网址:https://www.lianjia.com/city/ 获取省市2-创建文件 打开虚拟机或者powershell 执行命令scrapy startproject LianJia3-通过使用vscode或者pycharm找到创建的文件夹 如果是使用虚拟机创建文件夹 需要download下载在本地pycharm 这里我使用的是vscode 创建文件在po...原创 2019-12-30 13:42:29 · 631 阅读 · 0 评论 -
爬虫实例四:通过使用scrapy框架爬取豆瓣电影top250字段
1-打开powshell 创建项目 执行命令scrapy startproject DouBanTopscrapy startproject DouBanTop2- 执行命令 cd DouBanTopcd DouBanTopscrapy genspider TouTiao movie.douban.com3-使用pycharm或者vscode打开自己创建的项目名(1)在settin...原创 2019-12-21 15:24:05 · 1152 阅读 · 0 评论 -
爬虫实例3:爬取微博热搜
1-获取微博热搜urlweibo_url = 'https://s.weibo.com/top/summary?cate=realtimehot'2-创建存放微博热搜目录是否存在 不存在就创建if not os.path.exists(r'd:/新浪新闻'): os.mkdir(r'd:/新浪新闻')3-获取所需要的字段值eles=selector.cssselect('tb...原创 2019-12-09 18:13:55 · 1210 阅读 · 1 评论 -
利用requests库下载一张图片
1- 利用requests库下载一张图片import requestsurl = 'https://dss2.bdstatic.com/70cFvnSh_Q1YnxGkpoWK1HF6hhy/it/u=941671745,4027499575&fm=26&gp=0.jpg'r = requests.get(url)with open(r'1.jpg','wb') as...原创 2019-12-09 16:00:14 · 246 阅读 · 0 评论 -
爬虫实例1:爬取百度热搜风云榜 前50条热搜 并将热搜发送至自己邮箱
1-利用requests库以及xpath 获取百度热搜风云榜的字段 如:标题title 热搜urlurl = 'http://top.baidu.com/buzz?b=1&fr=topindex'header={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like...原创 2019-12-09 14:41:05 · 1977 阅读 · 0 评论 -
爬虫实例2:手动设置cookie 爬取知乎50条热搜 利用base64库将每一条热搜新闻上的图片内容编码成base64编码
设置cookie:手动设置cookie值的方式有两种 一种通过往请求头headers里面添加cookie 另一种通过cookiejar设置cookie值 本文采取往请求头headers里面添加cookie1-构造请求头headers# 这里的cookie需要你登录知乎 在network里面的all找到hot 然后在请求头里面找到你登录的cookie值header={ 'user-...原创 2019-12-09 10:51:31 · 305 阅读 · 0 评论