- 博客(20)
- 收藏
- 关注
原创 python中的str类型的list转化&两层list类型数据的过滤
【代码】python中的str类型的list转化&两层list类型数据的过滤。
2024-04-13 13:31:13 92
原创 Python爬虫多线程爬取
仅作参考仅使用threadpool库:task_pool = threadpool.ThreadPool(50)#开50个线程 requests = threadpool.makeRequests(self.threading_thread, self.list_all)#self.threading_thread为请求代码所在函数,self.list_all所传参数,不支持元组类型 # print(requests) for req in req
2022-01-19 16:04:32 379
原创 python中selenium填写select框
from selenium.webdriver.support.select import Select先找到select框的位置,我这里使用css选择器定位ji=self.driver.find_element_by_css_selector('#sm_code')Select(ji).select_by_visible_text(date04)date04是我需要填写到select框中的数据...
2021-12-28 10:05:41 401
原创 python中对excel表格数据的修改,插入,删除,获取
修改:xlrd库与xlutils库结合import xlrdfrom xlutils.copy import copydef oop1(): work = xlrd.open_workbook("ceshishujvku.xlsx") old_cibtent=copy(work) ws=old_cibtent.get_sheet(0) ws.write(2,1,'jimclear')#第2列第1行 old_cibtent.save("jim.xlsx")
2021-10-13 12:10:58 1983
原创 python爬虫单一的py文件打包
1,下载pyinstaller库2,在需要打包的py文件同级目录执行pyinstaller -F 测试2.py#测试2.py是需要打包的py文件3,最后在需要打包的同级目录生成dist文件夹,可执行文件就在其中。
2021-10-09 14:23:54 227
原创 python中scrapy框架使用flask框架编写api接口
1在scrapy框架中编写api接口:在与setting.py同级处新建api.py,在该api.py中编写一下代码from flask import Flaskimport osapp = Flask(__name__)@app.route('/asin')#浏览器接口路径def index(): print('正在执行爬虫项目!!!') os.system('scrapy crawl fk')#fk需要执行的py文件 return '爬虫项目执行完毕!!!'
2021-09-28 11:07:37 816
原创 mysql数据库中查找重复数据
select str1,str2,count(*) as count from table group by str1,str2 having count>1;#str1 ,str2是table表中的字段#根据str1,str2为条件来进行查找重复数据
2021-09-24 10:20:02 556
原创 linux中scp远程传输文件
scp asin_new.zip [email protected]:/opt/#asin_new.zip 是需要传输的文件#root是账户#14.30.1.46是目标IP#opt是目标下的目录
2021-09-24 09:13:37 75
原创 Linux中查看全部日志,python任务的执行线程
查看全部日志:tail -f 日志文件名python任务的执行线程: ps -ef|grep python让python任务在服务器后台运行:jim.log是日志文件nohup python3 run.py > jim.log &
2021-09-08 14:45:19 314 1
原创 python scrapy框架中如何提升爬虫获取数据效率
修改setting.py中的一些线程参数配置,# Configure maximum concurrent requests performed by Scrapy (default: 16)CONCURRENT_REQUESTS = 100# Configure a delay for requests for the same website (default: 0)# See https://docs.scrapy.org/en/latest/topics/settings.html#d
2021-09-07 16:21:34 104
原创 python scrapy框架中如何提升数据操作数据库的效率
第一步:建立数据库连接池import pymysqlfrom twisted.enterprise import adbapi# 异步更新操作class MySQLPipeline(object): def __init__(self, dbpool): self.dbpool = dbpool @classmethod def from_settings(cls, settings): # 函数名固定,会被scrapy调用,直
2021-09-07 10:56:24 252
原创 selenium打不开google的问题
在https://npm.taobao.org/mirrors/chromedriver/中找到尽可能与本机上的google版本一致的chromedriver.exe,并下载,最后将其移动到pycharm的虚拟环境中,如下图和google的安装位置中,如下图然后重新执行selenium代码即可。...
2021-08-03 09:28:00 573
原创 from pymouse import PyMouse,PyMouse报错问题
在pymouse库的初始化方法中第92行的from windows import PyMouse,PyMouseEvent改为from pymouse.windows import PyMouse,PyMouseEvent即可。
2021-06-29 15:00:20 3849 4
原创 scrapy框架的定时调度
import timeimport datetimefrom scrapy import cmdlinedef doSth(): # 把爬虫程序放在这个类里 sik是爬虫的name cmdline.execute('scrapy crawl sik'.split())# 想几点更新,定时到几点def time_ti(h=8, m=50): while True: now = datetime.datetime.now() # print(now.hour, now.m.
2021-06-11 09:03:41 351
原创 scrapy框架中数据缺失问题
yield中,在Request方法里,提供了dont_filter参数,设置在Request中,并改成True以回避过滤策略
2021-05-28 14:20:48 500
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人