爬虫
水木工南
这个作者很懒,什么都没留下…
展开
-
猫眼爬虫三-终极篇:破解滑动验证,动态字体加密
前面两节我们对猫眼网站进行了爬取,中间,我们会遇到各种反爬虫,包括滑动验证和字体加密等等,今天,我们就对这些反爬虫进行一一破解,实现猫眼网站的全信息爬取!1、滑动验证:滑动验证类似于极验证(滑块验证,电脑的B站登陆要滑动的哪个),但是原理不一样,目前来说,12306的相关抢票的脚本已经实现了自动加载滑块滑动,但大多数情况还得手动,在这里也是。破解流程:1、先尝试着获取数据,如果遇到爬取链接与...原创 2020-01-29 12:12:00 · 6470 阅读 · 5 评论 -
猫眼爬虫一-榜单爬取简单数据爬取,数据库存入
猫眼是一个很有影响力的电影数据分享平台,今天,我们要对这个网站的数据进行爬取,当然了,这个只是最初级的数据爬取,后面我会对该网站的加密数据进行爬取,希望能继续关注。猫眼爬虫:爬取评分前100的电影并存入数据库爬取数据前准备:先创建数据库表,并生成我们想要的保存到数据库中的列名(电影名称-上映时间-评分)python代码如import pymysql def create(): d...原创 2020-01-24 20:01:37 · 957 阅读 · 0 评论 -
python 学习 爬取证券之星的股票信息
python 学习 爬取证券之星的股票信息选择原因,数据好获取,便于操作!第一步,找到股票相关的信息,先去东方财富网,找到股票的代码查询一览表网站![在这里插入图片描述](https://img-blog.csdnimg.cn/20190914212532135.png在这里,我们能找到所以的股票信息,比如名称,代号等等!!然后,我们来到证券之星网站,随便找一只股,我们发现,所有的股...原创 2019-09-14 21:40:22 · 919 阅读 · 0 评论 -
python 爬取unsplash网站的图片
首先,我们打开该网站https://unsplash.com/,发现,这个网站是动态网站但是,不要慌张,我们看看他的网页结构,用Network打开看看相关信息我们发现了这样的一个链接咦,很明显,这个是图片的显示的页数和其他的一些东西,打开这个文件下的Request URL: https://unsplash.com/napi/photos?page=3&per_page=12,进...原创 2019-09-23 10:54:13 · 688 阅读 · 0 评论 -
今日头条的街拍下载实现 python
from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsfrom time import sleepimport requestsimport threadingimport osimport redef gethtml(url): chrome_options...原创 2019-10-02 18:17:09 · 385 阅读 · 0 评论