爬虫
天主极乐大帝
这个作者很懒,什么都没留下…
展开
-
selenium webdriver 如何添加cookie
get_cookies()#获得cookie信息add_cookie(cookie_dict)#添加cookiedelete_cookie(name)#删除特定(部分)的cookiedelete_all_cookies()#删除所有的cookie原创 2020-01-02 10:00:48 · 746 阅读 · 0 评论 -
dump、load和dumps、loads的联系与区别
dump、load和dumps、loads的联系与区别1、dump:将dict(字典)转换为str(字符串),并写入json文件中。import jsonDict={'1':1,'一':'一'}json.dump(Dict,open('json.json','w',ensure_ascii=False)#ensure_ascil=False表示输出中文,不加这句话就将字典的的中...原创 2019-12-31 09:46:55 · 2604 阅读 · 1 评论 -
代理池proxypool新版使用教程
1、代开redis数据库,打开proxypool,运行run.py文件2、如果db.py文件报错,可能是redis版本问题,将如下文件改为如下文件即可,或者进行相反操作。3、程序运行成功,在浏览器中访问127.0.0.1:5000/random,网址和端口在setting.py文件中配置,参数random也可能是get,具体参数在db.py文件中寻找。...原创 2019-12-16 20:58:30 · 3873 阅读 · 0 评论 -
正则中国邮政
#-*-coding:utf-8-*-import re,json,requestsurl="http://www.ip138.com/post/"headers = { # 伪装成浏览器,防止反爬,通用 'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko...原创 2019-11-24 14:55:28 · 262 阅读 · 0 评论 -
python正则表达式语法
#-*-coding:utf-8-*-import restr1="hello world my11 phone1 number is 123243331124" \ "I am 18 years old"#re.findall目的就是匹配字符串当中所有满足条件的字符result=re.findall(r"1",str1)#原样匹配,匹配字符原样,通常结合其他...原创 2019-11-24 14:53:40 · 195 阅读 · 0 评论 -
mongoDB如何将数据导成csv文件?
mongoDB如何将数据导成csv文件?1、代码如下:2、详细参数如下-h:mongo地址-u:用户名-p:密码--port:端口号-d:数据库-c:collection--query:查询条件--fields:需要的字段--type:导出类型-o:输出位置...原创 2019-11-22 15:52:42 · 356 阅读 · 0 评论 -
中国省市县完整数据
ssxList=[‘北京市’, ‘通县’, ‘东城区’, ‘西城区’, ‘崇文区’, ‘宣武区’, ‘朝阳区’, ‘丰台区’,‘石景山区’, ‘海淀区’, ‘门头沟区’, ‘房山区’, ‘通州区’, ‘顺义区’, ‘昌平区’, ‘大兴区’,‘怀柔区’, ‘平谷区’, ‘密云区’, ‘延庆区’, ‘北京市’, ‘天津市’, ‘蓟州’, ‘滨海新区(原塘沽区)’,‘滨海新区(原汉沽区)’, ‘滨...原创 2019-11-22 15:31:13 · 2215 阅读 · 0 评论 -
windows下如何启动redis
1、打开命令行,进入redis安装目录2、输入redis-server.exe redis.windows.conf命令3、出现上图,表示redis服务启动成功原创 2019-11-20 17:40:18 · 217 阅读 · 0 评论 -
如何启动mongoDB并用Robo 3T连接
1、打开命令行,进入mongoDB下的bin目录2、输入mongod --dbpath ../data/db命令3、出现waiting for connections on port 21017说明启动成功4、打开robo3t点击file,点击connect,弹出一个框,在点击connect.5、连接成功如下图所示。...原创 2019-11-20 16:45:49 · 1625 阅读 · 0 评论 -
scrapy框架爬虫文件配置
1、去除注释user_agent2、将ROBOTSTXT_OBEY = True改为ROBOTSTXT_OBEY=False;不遵守爬虫协议3、去除实体管道ITEM_PIPELINE的注释原创 2019-11-08 11:03:05 · 176 阅读 · 0 评论 -
numpy更改形状、类型
#-*-coding:utf-8-*-import numpy as np#创建一个数组#如果开始为0可以省略,如果步长为1,也可以省略arr=np.arange(6)print("arr:\n",arr)print("arr的形状:\n",arr.shape)#(6,)#更改形状---元素个数必须一致,对arr本身产生影响#arr.shape=(2,3)print("a...原创 2019-09-08 19:40:06 · 312 阅读 · 0 评论 -
scrapy分布式爬虫爬取淘车网
1、master主机city.py#文件redis_url文件from taoche.taoche.spiders.city import CITY_CODE, CAR_CODE_LISTfrom redis import Redisclass Redis_url(): def __init__(self): #连接客户端 self.re...原创 2019-09-06 16:17:24 · 1845 阅读 · 0 评论 -
爬虫无界面浏览器
#--coding:utf-8--from selenium import webdriver#网页驱动import time#构建浏览器:driver=webdriver.PhantomJS(executable_path=r’E:\爬虫文件\phantomjs-2.1.1-windows\bin\phantomjs.exe’)#访问网站url=‘http://www.baidu....原创 2019-08-27 16:26:20 · 291 阅读 · 0 评论 -
无界面(webdriver.PhantomJS)访问有道
#-*-coding:utf-8-*-#-*-coding:utf-8-*-#-*-coding:utf-8-*-from selenium import webdriver#网页驱动import timefrom lxml import etreefrom selenium.webdriver.common.keys import Keys#构建浏览器driver=webd...原创 2019-08-27 17:06:08 · 505 阅读 · 0 评论 -
爬虫多线程生产者与消费者
#-*-coding:utf-8-*-# -*-coding:utf-8-*-import threading, time, requests, jsonfrom queue import Queueclass Pcoduct(threading.Thread): # 继承多线程父类 def __init__(self, i, q): super().__ini...原创 2019-08-29 19:15:48 · 201 阅读 · 0 评论 -
有界面爬虫人人网登录
#-*-coding:utf-8-*-from selenium import webdriverimport timefrom selenium.webdriver.common.keys import Keysdriver=webdriver.Chrome(executable_path=r'D:\ProgramData\Anaconda3\chromedriver.exe')ur...原创 2019-08-30 20:50:40 · 188 阅读 · 0 评论 -
多线程爬取安客居
import requestsfrom lxml import etreeimport threadingfrom queue import Queueimport timeimport reimport pymysqldef is_none(message_list): if message_list: return message_list[0...原创 2019-08-30 21:59:43 · 1083 阅读 · 0 评论 -
下载器和进程池
下载器import osfrom urllib import requestfrom multiprocessing import Process#使用面向对象简单class Process2(Process):def init(self,url):super().init()self.url=urldef run(self):#Process类中的run函数自动调用pr...原创 2019-03-12 20:28:59 · 637 阅读 · 0 评论 -
mongodb命令基础知识点
Microsoft Windows [版本 10.0.17134.950]© 2018 Microsoft Corporation。保留所有权利。C:\Users\天主极乐大帝>d:1、进入bin目录D:>cd D:\MongoDB\Server\3.4\binD:\MongoDB\Server\3.4\bin>mongod --config “D:\MongoD...原创 2019-09-04 20:32:12 · 940 阅读 · 0 评论 -
python连接mongo数据库
import pymongoclient=pymongo.MongoClient('10.10.21.180',port=27017)#连接mongo数据库,建立客户端对象db=client['taoche']#连接数据库collection=db['taoche']#连接数据表collection.insert(dict({'1':'2'}))...原创 2019-09-06 10:15:11 · 125 阅读 · 0 评论 -
scrapy框架结构
Scrapy Engine(引擎):负责Spider、ltemPipeline、Downloader、Scheduler中间的通讯,信号\数据传递等。Scheduler(调度器):它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。Downloader(下载器):负责下载Scrapy Engine(引擎)发送的所有Request请求,并...原创 2019-09-06 13:48:57 · 161 阅读 · 0 评论 -
Phantomjs代理设置
service_args=[‘–proxy=%s’%ip_html,#代理IP:port(eg:192.168.0.28:808)]原创 2019-09-06 15:59:18 · 482 阅读 · 0 评论 -
python定时发送邮件
E:\reptile\day10\邮件发送\具体故事.py#-*-coding:utf-8-*-#-*-coding:utf-8-*-import requests,jsonfrom fake_useragent import UserAgentfrom lxml import etreeimport randomua=UserAgent()def story_html...原创 2019-09-06 16:01:52 · 546 阅读 · 0 评论 -
csdn访问量如何增加Python
from time import sleepfrom selenium import webdriverimport randomchrome = webdriver.Chrome()next_urls=["https://blog.csdn.net/weixin_42218868/article/details/95383428", "https://blog.c...原创 2019-07-11 22:33:22 · 1366 阅读 · 0 评论