2019年12月_qq_39043100

原创爬取json

import urllib.request,json,randomhead =['Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0', 'Opera/9.80 (Win...

2019-12-31 10:57:39 293

原创 docker搭建Portainer管理平台(集群，图形化)

192.168.50.174 node1 主192.168.50.173 node2 从两台机器都要做#vim /lib/systemd/system/docker.serviceExecStart=后面追加-H tcp://0.0.0.0:2375 -H unix:///var/run/docker.sock#systemctl daemon-reload#systemctl ...

2019-12-30 17:28:41 653

原创爬取多页数据存储在execl里面

import urllib.requestimport randomfrom lxml import etreeimport xlwtimport oshead =['Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3...

2019-12-27 13:25:43 523 1

原创 pyhton3装饰器

# -*- coding:gbk -*-'''使用内嵌包装函数来确保每次新函数都被调用，内嵌包装函数的形参和返回值与原函数相同，装饰函数返回内嵌包装函数对象'''def deco(func): def hanshu(): print("before myfunc() called.") func() print(" after myf...

2019-12-26 17:33:48 123

原创 selenium 页面嵌套页面和切换浏览器页面

from selenium import webdriver #从这个selenium导入web的引擎或者接口import timeduixiang = webdriver.Chrome(r'C:\Users\mozat\Desktop\chromedriver_win32\chromedriver.exe')duixiang.implicitly_wait(5)duixiang.get...

2019-12-26 10:48:28 1805

原创 Selenium下面使用css和xpath

from selenium import webdriver #从这个selenium导入web的引擎或者接口import timeduixiang = webdriver.Chrome(r'C:\Users\mozat\Desktop\chromedriver_win32\chromedriver.exe')duixiang.implicitly_wait(5)duixiang.get...

2019-12-26 10:27:27 159

原创 Selenium模块的操作元素

from selenium import webdriverimport time#创建一个webdriver的对象，指明使用chrome浏览器驱动aa = webdriver.Chrome(r'C:\Users\Administrator\Desktop\chromedriver_win32\chromedriver')aa.get('http://www.baidu.com') #打...

2019-12-25 23:32:53 120

原创遇到反爬使用Selenium模块

from selenium import webdriver#创建一个webdriver的对象，指明使用chrome浏览器驱动aa = webdriver.Chrome(r'C:\Users\Administrator\Desktop\chromedriver_win32\chromedriver')aa.get('http://www.baidu.com') #打开页面#根据id选择...

2019-12-25 21:28:15 243

原创数据存储在execl表和自动换行和宽高

import xlwtdef write_xlm(): f = xlwt.Workbook() sheet1 = f.add_sheet('学生', cell_overwrite_ok=True) row0 = ["id","姓名", "年龄", "出生日期", "爱好"] colum0 = ["张三", "李四", "恋习", "小明", "小红", "无名"]...

2019-12-24 17:14:29 221

原创爬虫小白抓取实战

接触爬虫差不多一个月，上班时候看视频学习，学了大概五六十个小时样子，代码写的烂，希望别见怪。后期继续努力，以下是我抓取网易云音乐抓取的页面https://music.163.com/#/discover/artist/cat?id=4003&initial=0import urllib.requestimport randomfrom lxml import etreefro...

2019-12-24 16:01:25 222

原创自己写的一个简单爬虫(爬取一本小说)

import urllib.requestimport reimport randomac = [] #放章节地址ua = [‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3314.0 Safari/537.36 SE 2.X MetaSr 1.0’,‘Mozi...

2019-12-11 13:41:47 2497

原创各种例子（1）

#爬取百度页面import urllib.requestimport urllib.parsekey = input(‘请出入搜索的关键字:’)url = ‘http://www.baidu.com/s?&’data = {‘wd’:key,“ie”:“utf-8”}data=urllib.parse.urlencode(data)link = url+dataxiangy...

2019-12-10 14:28:06 95

原创 urllib.request和urllib.parse解码,urllib.parse.urlencode将字典里面所有的键值转化为query-string格式（key=value&key=value）

import urllib.requestimport urllib.parseurl = ‘http://www.baidu.com/s?wd=海贼王’print(urllib.request.quote(url))print(urllib.parse.quote(url))url1 = ‘https://www.baidu.com/s?wd=%E6%B5%B7%E8%B4%BC%E7...

2019-12-10 10:18:25 417

原创模拟登陆账号爬取深层页面

-- coding: utf-8 --import scrapyfrom scrapy.http import Requestfrom scrapy.http import FormRequest #用来登录模块class ShubenSpider(scrapy.Spider): name = ‘login’ allowed_domains = [‘iqianyue...

2019-12-09 13:47:17 228

原创创建随机的用户代理(User-Agent)和创建随机的IP代理池(使用不同的IP访问)

import urllib.requestimport reimport randomhead = [‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3314.0 Safari/537.36 SE 2.X MetaSr 1.0’,‘Opera/9.80 (Win...

2019-12-08 20:05:11 556

原创伪装浏览器

#浏览器的伪装头部不伪装的一般出现403报错import urllib.requestdizhi = ‘https://www.csdn.net/’head = (“User-Agent”,‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3314.0 Safar...

2019-12-07 16:22:34 711

原创 get和post请求

#get请求实战—实现百度信息自动搜索import urllib.requestimport rekey = ‘对对对’key = urllib.request.quote(key)print(key) #把对对对转成%E5%AF%B9%E5%AF%B9%E5%AF%B9aa=‘https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=...

2019-12-06 18:09:36 216

原创设置超时时间

超过0.2秒就超时import urllib.requestfor i in range(0,1000): try: file = urllib.request.urlopen(“http://www.rj0904.top”,timeout=0.2) #print(‘成功’) except Exception as er: ...

2019-12-06 16:40:38 385

原创简单的爬虫加上一些六七八糟的东西

import urllib.requestimport refor i in range(1,6): url = ‘http://www.lovehhy.net/Default.aspx?LX=NHDZ&PG=’ url = url+str(i) #data = urllib.request.urlopen(url).read().decode(“utf-...

2019-12-06 10:24:25 223

原创 Python爬虫入门教程Scrapy爬虫框架

创建一个爬虫项目scrapy startproject baiduscrapy genspider -t basic bd baidu.com #创建爬虫文件items.py文件是需要抓取的目标pipelines.py 设置爬取后的文件怎么处理settings.py 设置配置文件spiders/xxx.py 是爬虫文件，设置怎么爬取response是响应，回复request...

2019-12-05 16:59:56 198

qq_39043100的博客