![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python 学习
ding283595861
这个作者很懒,什么都没留下…
展开
-
pycharm & sublime text3 相关配置信息
首先下载Anaconda3, 里面集成了大量的python库,如果直接下载python安装,后期使用过程中,还需要自己手动下载。anaconda3下载路径:https://repo.anaconda.com/archive/Anaconda3-2019.10-Windows-x86_64.exe下载完成后,直接安装即可,并设置环境变量:然后在cmd下输入 python,如截图代表安装完...原创 2020-03-03 13:06:35 · 561 阅读 · 0 评论 -
定义默认配置项
# 在配置文件:settings.py中定义MAX_SCORE = 50, 表示代理ip的默认最高分数MAX_SCORE=50#日志的配置信息import logging#默认的配置DEBUGLOG_LEVEL = logging.DEBUG #默认等级LOG_FMT= '%(asctime)s %(filename)s [line:%(lineno)d] %(levelname...原创 2019-10-17 15:58:41 · 282 阅读 · 0 评论 -
定义代理IP的数据模型类
from settings import MAX_SCORE#引入log模块,打印log# import logging# from utils.log import logger'''目标: 定义代理IP的数据模型类步骤:1.定义Proxy类,继承object2.实现__init__方法,负责初始化,包含如下字段: ip: 代理ip的地址 port:代理ip的端口...原创 2019-10-17 15:57:12 · 179 阅读 · 0 评论 -
检查代理IP速度,匿名程度以及支持的协议类型
检查代理IP速度,匿名程度以及支持的协议类型.log日志链接:https://blog.csdn.net/ding283595861/article/details/102599875headers 头链接:https://blog.csdn.net/ding283595861/article/details/102603040import timeimport requestsimpo...原创 2019-10-17 15:54:29 · 706 阅读 · 0 评论 -
检查免费可用的西祠代理ip
从西祠网站上,获取免费可用的代理, 在同级目录下新建一个空文件proxy.txt,然后直接运行代码,能用的ip都放在verified.txt文件中__author__ = '*****.****'# -*- coding: utf-8 -*-from bs4 import BeautifulSoup#import urllib2#import urllib.request#import...原创 2019-10-17 15:35:37 · 3573 阅读 · 0 评论 -
python 获取User-Agent随机请求头
从代理IP网站上,抓取代理ip和 检查代理ip的时候,为了使服务器不容易识别为一个爬虫,我们最好提供随机的 User-Agent请求头.代码实现如下,可以直接运行:import random'''从代理IP网站上,抓取代理ip和 检查代理ip的时候,为了使服务器不容易识别为一个爬虫,我们最好提供随机的 User-Agent请求头.1.获取随机User-Agent的请求头2. 步骤:...原创 2019-10-17 11:38:59 · 1049 阅读 · 0 评论 -
python log日志模块实现
log日志模块,可以直接导入项目中直接使用,方便代码调试. 使用起来还是非常方便. 完整的代码如下,可以直接运行:import sysimport logging#默认的配置DEBUGLOG_LEVEL = logging.DEBUG #默认等级LOG_FMT= '%(asctime)s %(filename)s [line:%(lineno)d] %(levelname)s %(m...原创 2019-10-17 09:59:17 · 1051 阅读 · 0 评论 -
python @property的用法
@property 相当于把函数转化成get属性函数,用于获取私有属性property有setter方法: 相当于set私有属性property有deleter方法:相当于删除私有属性class Test(object): def __init__(self, name,age, number=0): self.name = name self.age...原创 2019-10-17 09:53:54 · 81 阅读 · 0 评论 -
selenium + chrome 爬取淘宝数据
下面只是一个简单的例子, 使用selenium+ chrome爬取淘宝数据,能跑通,但是存在以下两个问题:爬取淘宝数据之前需要先登录淘宝账号,不然没法抓取数据,网上的很多例子,没有提起登录这事,估计之前的版本不需要登录就可以爬取,但是最新的淘宝网站,不登录,就没法爬取。之前一直使用无界面的浏览器爬取,总是失败,所以用有界面的浏览器才发现此问题该爬虫可以正常跑几次,如果一直反复跑的话,...原创 2019-09-18 20:30:01 · 947 阅读 · 0 评论 -
scrapy css &xpath 解析字段举例
举例: 访问http://lab.scrapyd.cn/爬虫parse解析字段; def parse(self, response): # 提取首页所有名言(两种写法) #mingyan = response.css('div.quote) mingyan = response.css('div.quote.post') for v ...原创 2019-09-16 14:29:34 · 408 阅读 · 0 评论 -
scray下载图片修改路径或者重命名文件方法
1.在settings.py中定义设置图片存储目录 IMAGES_STORE = 'D:\ImageSpider'2.有两种方法修改文件名:A . 在pipelines.py中,重写file_path即可,这样存储的文件路 径就类似这样: D:\ImageSpider\*.jpg class ImagespiderPipeline(ImagesPipeline): def fi...原创 2019-09-11 10:47:45 · 468 阅读 · 0 评论 -
python 设置pip下载源
Win10:A. pip 源的修改:在该目录下 C:\Users\jun.wang\AppData\Roaming\ ,新建一个pip目录,然后再目录中新建一个pip.ini文本,换成阿里云的源,文本的内容如下:[global]timeout = 6000index-url = https://mirrors.aliyun.com/pypi/simple/trusted-host = ...原创 2019-09-10 13:06:37 · 645 阅读 · 0 评论 -
Scrapy 爬取贴吧的例子
由于该网站是通过js处理的,在spidertieba.py中,通过response.xpath(’//li[@class=" j_thread_list clearfix"]’)解析字段信息, 始终没法抓取到数据.如何抓取到数据是关键, 就想到了用scrapy + selenium 进行动态加载页面的内容爬取。在middlewares.py中,使用了 selenium+chromedr...原创 2019-09-10 10:37:36 · 1033 阅读 · 0 评论 -
豆瓣电影
#!/usr/bin/env pythonencoding=utf-8import requestsimport reimport codecsfrom bs4 import BeautifulSoupfrom openpyxl import Workbook#实例化wb = Workbook()#激活worksheetws1 = wb.activews1.title = “...原创 2019-08-30 09:43:06 · 280 阅读 · 0 评论 -
scrapy 函数parse response xpath问题 ?
-- coding: utf-8 --import scrapyfrom testspider.items import TestspiderItemclass TestbaiduSpider(scrapy.Spider):name = ‘testbaidu’allowed_domains = [‘baidu.com’]start_urls = [‘http://tieba.baidu...原创 2019-08-26 14:25:03 · 1220 阅读 · 2 评论 -
python 自动识别验证码登录相关库安装
import requestsfrom bs4 import BeautifulSoupimport pytesseractfrom PIL import Imageheaders = {‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrom...原创 2019-08-21 09:10:21 · 787 阅读 · 0 评论 -
python 实现豆瓣抓取电影,并且导入到excel表格
#!/usr/bin/env pythonencoding=utf-8import requestsimport reimport codecsfrom bs4 import BeautifulSoupfrom openpyxl import Workbook#实例化wb = Workbook()#激活worksheetws1 = wb.activews1.title = “...原创 2019-08-15 10:26:12 · 623 阅读 · 0 评论 -
python学习
1.python requests response ,.text和content的区别:.text是现成的字符串,.content还要编码,但是.text不是所有时候显示都正常,这是就需要用.content进行手动编码。(.content.encode(‘utf-8’))请参考https://www.cnblogs.com/yunlongaimeng/p/9466187.html...原创 2019-08-15 09:59:46 · 104 阅读 · 0 评论