- 博客(20)
- 资源 (2)
- 问答 (1)
- 收藏
- 关注
原创 爬取json
import urllib.request,json,randomhead =['Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0', 'Opera/9.80 (Win...
2019-12-31 10:57:39 293
原创 docker搭建Portainer管理平台(集群,图形化)
192.168.50.174 node1 主192.168.50.173 node2 从两台机器都要做#vim /lib/systemd/system/docker.serviceExecStart=后面追加-H tcp://0.0.0.0:2375 -H unix:///var/run/docker.sock#systemctl daemon-reload#systemctl ...
2019-12-30 17:28:41 653
原创 爬取多页数据存储在execl里面
import urllib.requestimport randomfrom lxml import etreeimport xlwtimport oshead =['Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3...
2019-12-27 13:25:43 523 1
原创 pyhton3装饰器
# -*- coding:gbk -*-'''使用内嵌包装函数来确保每次新函数都被调用,内嵌包装函数的形参和返回值与原函数相同,装饰函数返回内嵌包装函数对象'''def deco(func): def hanshu(): print("before myfunc() called.") func() print(" after myf...
2019-12-26 17:33:48 123
原创 selenium 页面嵌套页面和切换浏览器页面
from selenium import webdriver #从这个selenium导入web的引擎或者接口import timeduixiang = webdriver.Chrome(r'C:\Users\mozat\Desktop\chromedriver_win32\chromedriver.exe')duixiang.implicitly_wait(5)duixiang.get...
2019-12-26 10:48:28 1805
原创 Selenium下面使用css和xpath
from selenium import webdriver #从这个selenium导入web的引擎或者接口import timeduixiang = webdriver.Chrome(r'C:\Users\mozat\Desktop\chromedriver_win32\chromedriver.exe')duixiang.implicitly_wait(5)duixiang.get...
2019-12-26 10:27:27 159
原创 Selenium模块的操作元素
from selenium import webdriverimport time#创建一个webdriver的对象,指明使用chrome浏览器驱动aa = webdriver.Chrome(r'C:\Users\Administrator\Desktop\chromedriver_win32\chromedriver')aa.get('http://www.baidu.com') #打...
2019-12-25 23:32:53 120
原创 遇到反爬使用Selenium模块
from selenium import webdriver#创建一个webdriver的对象,指明使用chrome浏览器驱动aa = webdriver.Chrome(r'C:\Users\Administrator\Desktop\chromedriver_win32\chromedriver')aa.get('http://www.baidu.com') #打开页面#根据id选择...
2019-12-25 21:28:15 243
原创 数据存储在execl表和自动换行和宽高
import xlwtdef write_xlm(): f = xlwt.Workbook() sheet1 = f.add_sheet('学生', cell_overwrite_ok=True) row0 = ["id","姓名", "年龄", "出生日期", "爱好"] colum0 = ["张三", "李四", "恋习", "小明", "小红", "无名"]...
2019-12-24 17:14:29 221
原创 爬虫小白抓取实战
接触爬虫差不多一个月,上班时候看视频学习,学了大概五六十个小时样子,代码写的烂,希望别见怪。后期继续努力,以下是我抓取网易云音乐抓取的页面https://music.163.com/#/discover/artist/cat?id=4003&initial=0import urllib.requestimport randomfrom lxml import etreefro...
2019-12-24 16:01:25 222
原创 自己写的一个简单爬虫(爬取一本小说)
import urllib.requestimport reimport randomac = [] #放章节地址ua = [‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3314.0 Safari/537.36 SE 2.X MetaSr 1.0’,‘Mozi...
2019-12-11 13:41:47 2497
原创 各种例子(1)
#爬取百度页面import urllib.requestimport urllib.parsekey = input(‘请出入搜索的关键字:’)url = ‘http://www.baidu.com/s?&’data = {‘wd’:key,“ie”:“utf-8”}data=urllib.parse.urlencode(data)link = url+dataxiangy...
2019-12-10 14:28:06 95
原创 urllib.request和urllib.parse解码,urllib.parse.urlencode将字典里面所有的键值转化为query-string格式(key=value&key=value)
import urllib.requestimport urllib.parseurl = ‘http://www.baidu.com/s?wd=海贼王’print(urllib.request.quote(url))print(urllib.parse.quote(url))url1 = ‘https://www.baidu.com/s?wd=%E6%B5%B7%E8%B4%BC%E7...
2019-12-10 10:18:25 417
原创 模拟登陆账号爬取深层页面
-- coding: utf-8 --import scrapyfrom scrapy.http import Requestfrom scrapy.http import FormRequest #用来登录模块class ShubenSpider(scrapy.Spider): name = ‘login’ allowed_domains = [‘iqianyue...
2019-12-09 13:47:17 228
原创 创建随机的用户代理(User-Agent)和创建随机的IP代理池(使用不同的IP访问)
import urllib.requestimport reimport randomhead = [‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3314.0 Safari/537.36 SE 2.X MetaSr 1.0’,‘Opera/9.80 (Win...
2019-12-08 20:05:11 556
原创 伪装浏览器
#浏览器的伪装头部 不伪装的一般出现403报错import urllib.requestdizhi = ‘https://www.csdn.net/’head = (“User-Agent”,‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3314.0 Safar...
2019-12-07 16:22:34 711
原创 get和post请求
#get请求实战—实现百度信息自动搜索import urllib.requestimport rekey = ‘对对对’key = urllib.request.quote(key)print(key) #把对对对转成%E5%AF%B9%E5%AF%B9%E5%AF%B9aa=‘https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=...
2019-12-06 18:09:36 216
原创 设置超时时间
超过0.2秒就超时import urllib.requestfor i in range(0,1000): try: file = urllib.request.urlopen(“http://www.rj0904.top”,timeout=0.2) #print(‘成功’) except Exception as er: ...
2019-12-06 16:40:38 385
原创 简单的爬虫加上一些六七八糟的东西
import urllib.requestimport refor i in range(1,6): url = ‘http://www.lovehhy.net/Default.aspx?LX=NHDZ&PG=’ url = url+str(i) #data = urllib.request.urlopen(url).read().decode(“utf-...
2019-12-06 10:24:25 223
原创 Python爬虫入门教程Scrapy爬虫框架
创建一个爬虫项目scrapy startproject baiduscrapy genspider -t basic bd baidu.com #创建爬虫文件items.py文件是需要抓取的目标pipelines.py 设置爬取后的文件怎么处理settings.py 设置配置文件spiders/xxx.py 是爬虫文件,设置怎么爬取response是响应,回复request...
2019-12-05 16:59:56 198
公司个别电脑网速很慢,怎么处理
2021-03-31
TA创建的收藏夹 TA关注的收藏夹
TA关注的人