爬虫
有关爬虫的相关知识
Mr.冷小陌
这个作者很懒,什么都没留下…
展开
-
爬虫(图片)
从网站里爬图片代码如下:import re,os"""re.match 必须从头开始严格匹配re.search 不追求在字符串开头re.findall 查询结果集 -> list"""email_regex = '[\w]+@[a-zA-Z0-9]+.[a-z]+'# 1456959971@qq.commeinv_regex = '"objURL":"(...原创 2019-10-11 16:15:05 · 114 阅读 · 0 评论 -
爬虫入门操作
存文件的三种方式:txt文件with open('目录.txt','a',encoding='utf-8') as f: f.write(alist+'\n')csv文件with open('qdzw.csv','w',encoding='utf-8') as f: writer = csv.writer(f,delimiter=',') writer.writerow(['title','author','cont'])with open('qdzw.csv','a.原创 2020-07-01 15:05:37 · 194 阅读 · 0 评论 -
增量式与分布式爬虫
分布式爬虫redis安装用户自定义目录,也就是你想安装的位置,新建一个文件夹,注意你的路径里不要有中文将redis-x64-3.2.100.zip压缩包 解压到你当前新建的文件夹里将解压的文件的路径复制 并 配置到环境变量中右击此电脑点击属性找到高级设置,然后点环境变量—系统变量—双击path—新建–粘贴路径即可分布式分布式爬虫多台服务器机群,共同爬取数据适用于数据量...原创 2019-11-08 17:13:07 · 482 阅读 · 0 评论 -
存mysql数据库
import requestsimport pymysql# 连接mysqlconn = pymysql.connect(user='root',host='localhost',port=3306,password='',database='bbb',charset='utf8')cur = conn.cursor()url = 'https://api.bilibili.com/x...原创 2019-11-07 11:26:48 · 84 阅读 · 0 评论 -
存入mongo数据库
普通存from selenium import webdriverfrom lxml import etreeimport pymongo# 创建连接conn = pymongo.MongoClient('localhost',27017)# 建库db = conn.wangyi# 建表table = db.wangdef save_data(dic): tab...原创 2019-11-07 11:20:32 · 112 阅读 · 0 评论 -
快速生成User-Agent
新建一个py文件 from fake_useragent import UserAgent user_agent = UserAgent() print(user_agent.Chrome) print(user_agent.IE) print(user_agent.Firefox)原创 2019-11-05 11:33:31 · 1099 阅读 · 0 评论 -
使用scrapy框架 爬取辽宁信息网
流程如下爬虫文件中,也就是执行scrapy genspider 爬虫名 域名 后建的py文件 # -*- coding: utf-8 -*- import scrapy from ..items import LnzbItem class LnzxzbSpider(scrapy.Spider): name = 'lnzxzb' # allo...原创 2019-11-04 18:57:28 · 96 阅读 · 0 评论 -
将爬取的图片地址存入mongodb数据库
流程如下import requestsfrom lxml import etreeimport pymongo# 与mongodb数据建立连接conn = pymongo.MongoClient('localhost',27017)# 连接或创建一个库db = conn.imgs# 创建表table = db.image# 定义函数用来存储图片地址到mongo库def...原创 2019-10-30 16:01:43 · 815 阅读 · 1 评论 -
利用js代码滚动 存储图片
这里用到了 自动化和 js滚动import timeimport requestsimport randomfrom selenium import webdriverfrom lxml import etreebrowser = webdriver.Chrome('./chromedriver.exe')browser.get('http://image.baidu.c...原创 2019-10-28 17:40:21 · 177 阅读 · 0 评论 -
urllib中的urlopen发送get和post请求
get请求from urllib import requesturl = 'http://www.baidu.com'res = request.urlopen(url=url)# print(res.read())with open('baidu_index.html','w',encoding='utf-8') as f: f.write(res.read().decod...原创 2019-10-23 19:50:21 · 2218 阅读 · 1 评论 -
链接提交—加快网站内容抓取
https://ziyuan.baidu.com/linksubmit/url原创 2019-10-23 10:15:41 · 364 阅读 · 0 评论 -
快捷安装虚拟环境所需要的包
测试流程在桌面创建一个文件夹,然后在地址栏中输入cmd打开命令窗口在命令窗口输入命令 pip freeze > requirements.txt,然后它会自动生成一个txt文件在该文件夹下,这个文件打开就是你当前虚拟环境所安装的所有 包在cmd窗口输入pip install -r ./requirements.txt ,他会自动安装这个文件里的所有的包...原创 2019-10-22 19:00:20 · 246 阅读 · 0 评论 -
虚拟环境的安装和使用
流程必须安装virtualenvwrapper-winpip install virtualenvwrapper-win虚拟环境常用的命令mkvirtualenv 环境名称 # 创建虚拟环境并自动切换到该环境下workon 环境名 # 切换到某虚拟环境下pip listrmvirtualenv 环境名称 # 删除虚拟环境deactivate # 退出虚拟环境l...原创 2019-10-22 10:32:59 · 203 阅读 · 1 评论