![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
网络爬虫python
文章平均质量分 61
网络爬虫python
dream_uping
今天也是努力的一天
展开
-
Linux pip安装包。解决:You should consider upgrading via the 'pip install --upgrade pip' command.
命令:pip3 install --upgrade pip结果:OK!原创 2020-04-27 18:11:17 · 3433 阅读 · 11 评论 -
将前500页,和中间500页的CVE编号放在一起
代码:'''将前500页,和中间500页的CVE编号放在一起'''import jsoncve_num1_file = open('D:/00000000\前1-500页/cve_num0.json', "r")cve_num1_context = json.load(cve_num1_file)cve_num2_file = open('D:/00000000\中500-10...原创 2020-04-13 12:15:38 · 233 阅读 · 1 评论 -
由于获得较好的处理机资源,因此将之前的数据整合到一起。
整合数据代码:# coding:utf-8# 由于获得较好的处理机资源,因此将之前的数据整合到一起。#后面1000-2470页面全部整合到一起import jsondef add_to_one(): cve_num1_file = open('D:/0test\中1000-1500页/cve_num0.json', "r") cve_num1_context = j...原创 2020-04-07 13:37:25 · 415 阅读 · 0 评论 -
记录爬取2470条数据
由于爬取了几百条之后,生成的文件就是30多MB啦。所以分成1000,500,500,470.4个批次。不过,要手动挪一下。【就是把之前第一页生成的挪过来。】列表文件,和基础信息文件.都弄成空列表!前1000个:前1000条:【记录一下在995条遇到的困难】还好,我设置了自动从上次失败的地方进行爬取的功能代码:再次启动:前1000条结束:...原创 2020-04-04 15:10:37 · 394 阅读 · 0 评论 -
约等于全自动爬取CVE基础信息
套用之前的思路,设置一个记录的东西!手工部分:创建一个记事本,并赋予初始数值1 在列表的最后,添加0【后面有用!】用一个记事本来记录每次的i数值:开始,读取i数值: with open("D:/1swqcve/record.txt") as file_object: i = int(file_object.read()) print(i)...原创 2020-04-03 19:54:51 · 698 阅读 · 1 评论 -
爬取--- https://www.exploit-db.com/ 下载POC较完善的代码【2】
OK1,先进行爬取基础信息!运行程序:【通过生成的CVE列表,多生成几个文件。后面会有用处的!】cve编号写入cve_num0.json成功!【备份】cve编号写入cve_num1.json成功!【爬取影响产品信息】cve编号写入cve_num2.json成功!【记录影响产品信息】cve编号写入cve_num3.json成功!【爬取对应的POC信息】cve编号写入cve_num4.js...原创 2020-04-03 10:32:39 · 1603 阅读 · 5 评论 -
关于生成漏洞信息属性代码备份
1,先爬取基础属性2,爬取影响产品3,爬取对应的POC信息4,添加其他属性具体代码:密码myname大写!https://www.exploit-db.com/能够成功下载的一个CVE编号...原创 2020-04-02 22:29:37 · 324 阅读 · 0 评论 -
https://www.exploit-db.com/下载POC比较完善的代码
1,通过读取CVE编号自动下载2,由于网络问题,下载容易中断。所以设置一个变量来记录执行到了哪一步。i = 0 #重新开始的话,记得从cve_num1.json的最后一行中取值可以将这个变量加在CVE列表的最后的一行。cve_num1_context[-1] = i3,就是remove,会出现跳过的问题。这个是由于索引的问题。只能通过复制来解决。可以通过,代码来解决。之...原创 2020-04-02 21:56:51 · 1629 阅读 · 4 评论 -
https://www.exploit-db.com/能够成功下载的一个CVE编号
CVE编号:2020-8866成功代码:【密码:myname--简写大写】原创 2020-04-02 21:01:14 · 1002 阅读 · 2 评论 -
爬虫爬取https://www.exploit-db.com/老是跳过一个
https://www.exploit-db.com/由于是外网,连接速度不行。就怕突然下载停止。这个时候的CVE编号,就会紊乱。解决办法,分开。备份一个CVE编号列表只用来记录去除剩下的,另外一个只用来下载。重新开始的时候,用上次剩余的来替换之前的CVE列表即可!...原创 2020-04-02 17:55:37 · 1404 阅读 · 1 评论 -
爬虫正则表达式遇到的困难
我看了CSDN和博客园,代码。除去格式以外。如果能够保存照片就好啦。我观察数据大多存放在<p>标签里面。现在如果能够去掉p标签的同时。保留住<img>标签就好啦。【感觉要用正则表达式】我拿出这两个链接,你可以看看:CSDN:https://blog.csdn.net/darkhq/article/details/88989236博客园:https://www.c...原创 2020-03-15 18:27:49 · 551 阅读 · 0 评论 -
成功爬取-CVE-2018-15982漏洞复现【博客园】【1】
代码:import requestsimport bs4from bs4 import BeautifulSoupimport ress = ''headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0...原创 2020-03-14 21:29:58 · 763 阅读 · 0 评论 -
成功爬取CVE-2019-9766漏洞复现【CSDN】【1】
代码:import requestsimport bs4from bs4 import BeautifulSoupimport ress = ''headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0...原创 2020-03-14 21:24:32 · 1039 阅读 · 3 评论 -
爬虫-selenium初步学习与使用!
1,查看自己浏览器版本:2,获取适合自己浏览器版本的对应驱动!https://chromedriver.storage.googleapis.com/index.html?3,自己创建一个目录,并且添加到系统环境变量里面!添加好之后,重启电脑即可!...原创 2020-03-07 15:30:11 · 342 阅读 · 0 评论 -
CNVD初次获取的源代码格式
如下:<tbody> <tr > <td class="alignRight">CNVD-ID</td> <td> CNVD-2020-14309 </td> </tr> &...原创 2020-03-05 17:44:27 · 559 阅读 · 0 评论 -
python爬虫,生成文件速度追不上已经爬取文件的生成速度。
观察时,已经生成了620多。但是文件夹却只有420多。查找第427个:已经生成过:此时系统时间:大概落后半个小时。原创 2020-03-01 19:41:42 · 444 阅读 · 1 评论 -
python爬虫报错:OSError: [Errno 22] Invalid argument
多番查找发现:原来是不符合Windows系统文件命名规则!如下:1、 允许文件或者文件夹名称不得超过255个字符;2、 文件名除了开头之外任何地方都可以使用空格;3、 文件名中不能有下列符号:“?”、“、”、“╲”、“*”、““”、“”“、“<”、“>”、“|”;4、 文件名不区分大小写,但在显示时可以保留大小写格式;5、 文件名中可以包含多个间隔符,如“我的文件.我的...原创 2020-03-01 14:05:37 · 1976 阅读 · 0 评论 -
记录爬虫遇到的困难
记录遇到的困难:1,存储文件出现问题猜测应该是因为名字的事情。Traceback (most recent call last): File "D:/pycharmworkspace/temp1/crawler_1.py", line 142, in <module> main() File "D:/pycharmworkspace/temp1/cr...原创 2020-03-01 10:37:38 · 1265 阅读 · 1 评论 -
python保存到固定文件夹的存储路径不能直接复制!
可以成功的代码:复制的磁盘上的:D:\pycharmworkspace\save向左向右偏大有不同!原创 2020-02-29 15:22:18 · 807 阅读 · 0 评论 -
变换为json类型却遭遇乱码\u516c\u5f00\u65e5\u671f
快快乐乐的转换为json之后,输出却变成了:{"CNVD-ID": "CNVD-2020-12878", "\u516c\u5f00\u65e5\u671f": "2020-02-29", "\u5371\u5bb3\u7ea7\u522b": "\u4e2d(AV", "\u5f71\u54cd\u4ea7\u54c1": "\u5e7f\u5dde\u8054\u96c5\u7f51\u...原创 2020-02-29 14:54:04 · 13091 阅读 · 1 评论 -
记录一些user-agent
如下:OperaMozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1656.60Opera/8.0 (Windows NT 5.1; U; en)Mozilla/5.0 (Windows NT 5.1...原创 2020-02-28 15:53:55 · 409 阅读 · 0 评论 -
scrapy的几个文件属性
1.spider 爬虫文件,制定抓取规则主要是利用xpath2.items.py 主要指定抓取的内容3.pipeline.py 有一个指向和存储数据的功能,这里我们还会增加一个store.py的文件,文件内部就是创建一个MongoDB的数据库。4.setting.py 配置文件,,主要是配置代理、User_Agent、抓取时间间隔、延时等等...原创 2020-02-28 15:38:41 · 365 阅读 · 2 评论 -
scrapy创建以及启动项目步骤!
1,创建项目:scrapy startproject biqukanprojectD:\pythonscrapy>scrapy startproject biqukanprojectNew Scrapy project 'biqukanproject', using template directory 'd:\python_install\lib\site-packages\scr...原创 2020-02-28 14:39:37 · 7091 阅读 · 0 评论 -
scrapy爬虫框架初相识
自己新建一个文件夹:然后执行命令:scrapy startproject python123demo查看里面的东西:D:\pythonscrapy>tree /f >.txt卷 software_home 的文件夹 PATH 列表卷序列号为 7E58-1E96D:.│ .txt│ └─python123demo │ scrapy...原创 2020-02-27 16:15:42 · 325 阅读 · 0 评论 -
解决scrapy安装失败
自己尝试安装:第一种:pip install scrapy。直接报错!第二种:半天都没有下载好!网上寻找解决办法:下载所需模块的.whl文件,然后再以pip的形式安装常用模块whl文件得下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/用cmd进入文件所存储的地方。使用命令安装:pip install T...原创 2020-02-27 13:37:05 · 3827 阅读 · 0 评论 -
解决 python pip install安装速度慢| 版本低|跨过个别错误包
命令:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scrapy截图:原创 2020-02-24 12:44:05 · 5535 阅读 · 26 评论 -
再次学习基础爬虫,爬取大学排名。
练习基础爬虫。对应的URL:http://www.zuihaodaxue.com/zuihaodaxuepaiming2018.html分析:先获取对应的全部代码:查看一下获取了什么:主函数中把其他的函数屏蔽掉。仅仅运行获取源代码所对应的函数:结果:总之很多!接下来就研究别的!...原创 2020-02-26 15:53:36 · 372 阅读 · 0 评论 -
beautifulsoup以及正则表达式re之间的一些知识!
代码:import requestsimport refrom bs4 import BeautifulSoupr = requests.get("https://python123.io/ws/demo.html")demo = r.textsoup = BeautifulSoup(demo, "html.parser")print(demo)print('查找:ID属性为固...原创 2020-02-26 11:09:33 · 985 阅读 · 0 评论 -
beautifulsoup里面的find()和findall()小代码测试
代码:import requestsfrom bs4 import BeautifulSoupr = requests.get("https://python123.io/ws/demo.html")demo = r.textsoup = BeautifulSoup(demo, "html.parser")print(soup)print('\n')for link in so...原创 2020-02-25 17:42:40 · 361 阅读 · 0 评论 -
XML,JOSN,YAML三种文件类型的区别
XML:用<>,标签表达信息的标记形式。JOSN:有类型的键值对标记信息!YAML:用无类型的键值对标记信息。XML:JOSN:YAML:OK!原创 2020-02-25 16:22:33 · 771 阅读 · 1 评论 -
bs4库的prettify()方法|粉饰的意思。就是多了换行!
单独执行:【未经过print输出!】.soup.prettify():就是多带了个换行符号!代码:import requestsfrom bs4 import BeautifulSoupr = requests.get("https://python123.io/ws/demo.html")demo = r.textsoup = BeautifulSoup(dem...原创 2020-02-25 16:01:06 · 2052 阅读 · 0 评论 -
soup.a.parents都有哪些
代码:import requestsfrom bs4 import BeautifulSoupr = requests.get("https://python123.io/ws/demo.html")demo = r.textsoup = BeautifulSoup(demo, "html.parser")print(soup.body)print(type(soup....原创 2020-02-25 15:17:21 · 573 阅读 · 0 评论 -
beautifulsoup关于标签的初学习
代码:import requestsfrom bs4 import BeautifulSoupr = requests.get("https://python123.io/ws/demo.html")print(r.text)print("\n")demo = r.textprint(demo)soup = BeautifulSoup(demo, "html.parser")...原创 2020-02-25 14:29:12 · 425 阅读 · 0 评论 -
爬虫笔记|r.text-r.request.headers|修改,头
代码:import requestsdef gethtmltext(url): try: k = {'user-agent':'Mozilla/5.0'} r = requests.get(url, headers = k) r.raise_for_status()#返回的是200的话,不产生异常。否则就报错! r...原创 2020-02-24 17:13:07 · 1334 阅读 · 0 评论 -
爬取京东商品信息
代码:import requestsdef gethtmltext(url): try: r = requests.get(url, timeout=30) r.raise_for_status()#返回的是200的话,不产生异常。否则就报错! r.encoding = r.apparent_encoding ...原创 2020-02-24 16:52:17 · 18976 阅读 · 2 评论 -
爬虫基础-request的一些基础属性
基础属性:代码:import keywordimport requestsr = requests.get("http://www.baidu.com")r.encoding = 'utf-8'print('//网页字符串形式\n')print(r.text)print('//200--成功\n')print(r.status_code)print('//从HTTP的he...原创 2020-02-23 17:46:46 · 395 阅读 · 0 评论 -
Python网络爬虫之制作股票数据定向爬虫 以及爬取的优化 可以显示进度条!
候选网站:新浪股票:http://finance.sina.com.cn/stock/百度股票:https://gupiao.baidu.com/stock/选取原则:无robots协议非js网页数据在HTMLK页面中的F12,查看源代码,即可查看。新浪股票,使用JS制作。脚本生成的数据。百度股票可以在HTML中查询到!http://quote.eastmoney.com/...原创 2018-11-24 14:29:42 · 2102 阅读 · 1 评论 -
python爬虫里的换行prettify
>>> print(soup.p.prettify)<bound method Tag.prettify of <p class="title"><b>The demo python introduces several python courses.</b></p>>>>&原创 2018-11-18 16:01:25 · 3044 阅读 · 1 评论 -
python学习 爬取亚马逊网页,失败后。修改HTTP报文头部后成功!
通过修改HTTP报文头部,来成功获取网页内容! pythonimport requestsr = requests.get("https://www.amazon.cn/gp/product/B01M8L5Z3Y")r.status_coder.encoding >>> import requests>>> r = requ...原创 2018-11-15 20:39:22 · 2754 阅读 · 0 评论 -
python 爬取网页照片!全代码!指定数量,指定目录,爬取过程详细!关于有下载照片过程但是不显示照片的问题的解释
作者:untilyouydc原文:https://blog.csdn.net/qq_40774175/article/details/81273198原博主解释比较详细,有些知识还附带上了链接解释。类似正则表达式,之类的!准备:需要安装一些函数依赖关系!pip install BeautifulSoup pip install requestspip install lxml ...转载 2018-11-17 16:41:08 · 3147 阅读 · 11 评论