Python爬虫
文章平均质量分 57
VM_Alike
这个作者很懒,什么都没留下…
展开
-
Python爬虫实例:爬取某个网页的子网页
笔者的目的是对已有的白名单进行细化处理。比如现在有常见域名名单(百度、腾讯、搜狐等等),笔者要做的是对每一个域名爬取其所有的子网站,比如腾讯对应的还有腾讯视频、微信、QQ、腾讯新闻等等。笔者的输入是一个包含常见域名白名单的xls文件,输出是一个包含白名单细花后的所有网站的xls文件。代码如下:import tldextract, requests, xlwt, time, random,...原创 2019-10-12 17:35:15 · 9000 阅读 · 1 评论 -
Python网段转IP,批量处理
笔者要做的是利用Angry IP Scanner对IP进行扫描。可是得到的不是IP,而是网段。笔者说的网段还不是*.*.*.*/X这种格式的,而是1.0.1.0,1.0.3.255这样的。所以就不能用Python自带的IIPY模块。以下是得到的数据和笔者最终的转化成果(部分):1.0.1.0,1.0.3.2551.0.8.0,1.0.15.2551.0.32.0,1.0.63.2551....原创 2019-09-19 16:44:46 · 1409 阅读 · 0 评论 -
Python爬虫,动态加载,JSON数据
该博客仅用于技术讨论,若有侵权,联系笔者删除。之前笔者做的爬虫基本都是获取网页代码后就可直接获取数据,或者用selenium进行模拟用户。但是用selenium的速度是真心慢。这次笔者在爬取VenusEye威胁情报中心的时候,获取代码后发现所需数据都是JS动态加载的数据。结果如下:<dl @click="search('domain')" v-show="headerEmail"&...原创 2019-08-26 11:23:23 · 3551 阅读 · 0 评论 -
Python+Selenium爬虫:定位元素无ID和class等属性解决办法
今天笔者进行数据爬虫的时候遇到一个问题,所需要定位的input输入框元素和button按钮元素都没有ID和此class等属性。代码如下:<div id="headerScaher" class="scaher hover"> <input type="text" placeholder="IP、域名、文件HASH(MD5/SHA1/SHA256)、邮箱"> ...原创 2019-08-21 10:24:23 · 13408 阅读 · 4 评论 -
Python爬虫:查国家安全信息库
本博客仅用于技术讨论,若有侵权,联系作者删除。这次笔者想对国家信息安全漏洞库进行爬虫,获取漏洞信息。并将每一个漏洞信息存为一个json文件。一、获取当前总页数先获取总页数,以便进行for循环爬所有的漏洞数据:#获取当前总页数def get_all_page(): global all_page req = requests.get('http://www.cnn...原创 2019-08-14 11:05:52 · 3124 阅读 · 0 评论 -
Python+IP代理爬虫实例:爬取常见知名网站信息
本博客仅用于技术讨论,若有侵权,联系笔者删除。此次的目的是爬取国内常见网站的基本信息。爬取的黄页是网站列表,爬取了三万多条数据。以下是结果图:一、代理IP由于一个IP重复请求多次后服务器会不响应,所以此处笔者采用代理IP的方式。代码如下:#获取代理IP列表def get_ip_list(url_now, headers): web_data = requests.g...原创 2019-08-06 14:26:22 · 3323 阅读 · 1 评论 -
Python爬虫实例:爬取国内所有医院信息
本博客仅用于技术讨论,若有侵权,联系笔者删除。此次的目的是爬取国内医院的基本信息,并按省份存储。爬取的黄页是医院列表。以下是结果图:一、初始化数据初始化基本的数据,包括global变量,省份名称等等。import requests,re,xlwt,datetimefrom bs4 import BeautifulSoup#初始化def init(): gl...原创 2019-08-05 15:22:15 · 13171 阅读 · 19 评论 -
Python爬虫:验证码认证(输入式验证码、滑动式验证码、点击式验证码、宫格验证码)
笔者在本科阶段想学却一致没有学的Python爬虫,没有想到研究僧阶段刚进实验室的第一周就被安排学习了。这周笔者主要学习的有:UA黑名单饶过、JS混淆和验证码认证。其中,验证码认证是花费时间最长的,问题及代码如下:一、输入式验证码用户根据图片输入相应的数字和字母,这种验证码出现相对较早,也较为普遍,对于Python爬虫来说,也较为简单。解决办法式用Python的第三方库Tessero...原创 2019-07-26 16:14:00 · 6265 阅读 · 0 评论 -
Python爬虫实例:爬取“查IPIP”查询结果,查询IP地址归属地
该文章仅用于技术讨论,若有侵权,联系作者删除。目标是输入一个IP地址后,获取查IP网(http://chaipip.com/ip.php)的查询结果。正常使用我们发现——流程是输入IP地址——进行滑动验证码验证后查询——跳转一个新的窗口——获取新窗口的查询结果。我们先来看一下最后的流程和结果。selenium模拟流程查询结果接下来,我们就一步一步讨论如何解决。一、输入I...原创 2019-07-31 15:23:37 · 5673 阅读 · 0 评论 -
Python爬虫:爬取国内所有高校名称、类型、官网
本博客仅用于技术讨论,若有侵权,联系笔者删除。此次的目的是爬取国内高校的基本信息,并按省份存储。爬取的黄页是http://www.gx211.com/gxmd/gx-bj.html。以下是结果图:一、初始化数据初始化基本的数据,包括global变量,省份名称等等。from bs4 import BeautifulSoupfrom selenium import webd...原创 2019-08-02 17:27:05 · 11330 阅读 · 5 评论