- 博客(10)
- 收藏
- 关注
原创 从数据库中取出代理ip
def get_random_proxy(self): '''随机从IP数据库中读取proxy''' # 连接数据库 con = pymysql.connect( host='localhost', # 数据库所在地址URL user='root', # 用户名 passwo...
2019-04-30 14:37:29 445
原创 Python中按照时间分类创建文件夹
import osimport datetime# 下面列举三种格式# 年-月-日 时:分:秒nowTime=datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')# 年-月-日dayTime = datetime.datetime.now().strftime('%Y-%m-%d')# 时:分:秒hourTime = datet...
2019-04-30 10:20:53 1750
原创 scrapy按照时间输出日志
1、在settings文件中设置import datetimeto_day = datetime.datetime.now()log_file_path = 'log文件夹的绝对路径/log_{}_{}_{}.log'.format(to_day.year, to_day.month,to_day.day)LOG_LEVEL = 'DEBUG' # 设置输出日志的等级,大于等于次等级的输...
2019-04-30 10:07:12 1211
转载 DeBug Python神级工具PySnooper
GitHub项目地址安装pip3 install pysnooperimport pysnooper@pysnooper.snoop()def number_to_bits(number): if number: bits = [] while number: number, remainder = divmod(num...
2019-04-24 16:53:25 5155
原创 python小型定时任务--schedule
import osimport scheduleimport timedef job(): os.system("scrapy crawl saveSpider") print('yici ')schedule.every().minutes.do(job)# schedule.every().hour.do(job)while True: sched...
2019-04-23 17:26:56 476
转载 python读取pdf文件
'''读取pdf文件'''from urllib.request import urlopenfrom pdfminer.pdfinterp import PDFResourceManager, process_pdffrom pdfminer.converter import TextConverterfrom pdfminer.layout import LAParamsfro...
2019-04-12 18:51:48 2678
转载 scrapy实现去重爬虫
# 导入异常处理模块from scrapy.exceptions import DropItemclass spiderNamePipeline(object): def __init__(self): #建立构造方法 self.title = set() #定义集合 def process_item(self, item...
2019-04-09 18:42:17 1113
原创 把Mar 4, 2019时间格式转为时间戳
import timea = "Mar 4, 2019"str = time.strptime(a, "%b %d, %Y")# 转为时间戳timestamp = int(time.mktime(str))print(timestamp)# 转为正常时间time1 = time.strftime("%Y-%m-%d", time.localtime(timestamp))prin...
2019-04-09 14:28:39 803
原创 scrapy爬虫添加UA池和IP代理池
1.在setting中添加UA池和IP代理池# 1. 准备User-Agent列表, 在settings.py中USER_AGENT_LIST = ["Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET ...
2019-04-09 10:11:07 5332
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人