爬虫
jim_lucky
这个作者很懒,什么都没留下…
展开
-
Python爬虫多线程爬取
仅作参考仅使用threadpool库:task_pool = threadpool.ThreadPool(50)#开50个线程 requests = threadpool.makeRequests(self.threading_thread, self.list_all)#self.threading_thread为请求代码所在函数,self.list_all所传参数,不支持元组类型 # print(requests) for req in req原创 2022-01-19 16:04:32 · 379 阅读 · 0 评论 -
python中对excel表格数据的修改,插入,删除,获取
修改:xlrd库与xlutils库结合import xlrdfrom xlutils.copy import copydef oop1(): work = xlrd.open_workbook("ceshishujvku.xlsx") old_cibtent=copy(work) ws=old_cibtent.get_sheet(0) ws.write(2,1,'jimclear')#第2列第1行 old_cibtent.save("jim.xlsx")原创 2021-10-13 12:10:58 · 1989 阅读 · 0 评论 -
python爬虫单一的py文件打包
1,下载pyinstaller库2,在需要打包的py文件同级目录执行pyinstaller -F 测试2.py#测试2.py是需要打包的py文件3,最后在需要打包的同级目录生成dist文件夹,可执行文件就在其中。原创 2021-10-09 14:23:54 · 228 阅读 · 0 评论 -
python中scrapy框架使用flask框架编写api接口
1在scrapy框架中编写api接口:在与setting.py同级处新建api.py,在该api.py中编写一下代码from flask import Flaskimport osapp = Flask(__name__)@app.route('/asin')#浏览器接口路径def index(): print('正在执行爬虫项目!!!') os.system('scrapy crawl fk')#fk需要执行的py文件 return '爬虫项目执行完毕!!!'原创 2021-09-28 11:07:37 · 831 阅读 · 0 评论 -
Linux中查看全部日志,python任务的执行线程
查看全部日志:tail -f 日志文件名python任务的执行线程: ps -ef|grep python让python任务在服务器后台运行:jim.log是日志文件nohup python3 run.py > jim.log &原创 2021-09-08 14:45:19 · 319 阅读 · 1 评论 -
python scrapy框架中如何提升爬虫获取数据效率
修改setting.py中的一些线程参数配置,# Configure maximum concurrent requests performed by Scrapy (default: 16)CONCURRENT_REQUESTS = 100# Configure a delay for requests for the same website (default: 0)# See https://docs.scrapy.org/en/latest/topics/settings.html#d原创 2021-09-07 16:21:34 · 105 阅读 · 0 评论 -
python scrapy框架中如何提升数据操作数据库的效率
第一步:建立数据库连接池import pymysqlfrom twisted.enterprise import adbapi# 异步更新操作class MySQLPipeline(object): def __init__(self, dbpool): self.dbpool = dbpool @classmethod def from_settings(cls, settings): # 函数名固定,会被scrapy调用,直原创 2021-09-07 10:56:24 · 252 阅读 · 0 评论 -
selenium打不开google的问题
在https://npm.taobao.org/mirrors/chromedriver/中找到尽可能与本机上的google版本一致的chromedriver.exe,并下载,最后将其移动到pycharm的虚拟环境中,如下图和google的安装位置中,如下图然后重新执行selenium代码即可。...原创 2021-08-03 09:28:00 · 576 阅读 · 0 评论 -
from pymouse import PyMouse,PyMouse报错问题
在pymouse库的初始化方法中第92行的from windows import PyMouse,PyMouseEvent改为from pymouse.windows import PyMouse,PyMouseEvent即可。原创 2021-06-29 15:00:20 · 3868 阅读 · 4 评论 -
scrapy框架的定时调度
import timeimport datetimefrom scrapy import cmdlinedef doSth(): # 把爬虫程序放在这个类里 sik是爬虫的name cmdline.execute('scrapy crawl sik'.split())# 想几点更新,定时到几点def time_ti(h=8, m=50): while True: now = datetime.datetime.now() # print(now.hour, now.m.原创 2021-06-11 09:03:41 · 352 阅读 · 0 评论 -
scrapy框架中数据缺失问题
yield中,在Request方法里,提供了dont_filter参数,设置在Request中,并改成True以回避过滤策略原创 2021-05-28 14:20:48 · 507 阅读 · 0 评论