jim_lucky-CSDN博客

原创 python中pip下载第三方库镜像源问题

在使用pip install -i https://mirrors.aliyun.com/pypi/simple/ 命令安装包时报错。

2024-05-06 13:50:54 224 1

原创 python中的str类型的list转化&两层list类型数据的过滤

【代码】python中的str类型的list转化&两层list类型数据的过滤。

2024-04-13 13:31:13 266 1

原创 python读取磁盘文件信息

【代码】python读取磁盘文件信息。

2023-02-08 16:53:52 823

原创 python下载图片至本地

【代码】python下载图片至本地。

2022-12-15 17:24:45 372

仅作参考仅使用threadpool库：task_pool = threadpool.ThreadPool(50)#开50个线程 requests = threadpool.makeRequests(self.threading_thread, self.list_all)#self.threading_thread为请求代码所在函数，self.list_all所传参数，不支持元组类型 # print(requests) for req in req

2022-01-19 16:04:32 471

原创 python中selenium填写select框

from selenium.webdriver.support.select import Select先找到select框的位置，我这里使用css选择器定位ji=self.driver.find_element_by_css_selector('#sm_code')Select(ji).select_by_visible_text(date04)date04是我需要填写到select框中的数据...

2021-12-28 10:05:41 515

原创 python中对excel表格数据的修改，插入，删除，获取

修改：xlrd库与xlutils库结合import xlrdfrom xlutils.copy import copydef oop1(): work = xlrd.open_workbook("ceshishujvku.xlsx") old_cibtent=copy(work) ws=old_cibtent.get_sheet(0) ws.write(2,1,'jimclear')#第2列第1行 old_cibtent.save("jim.xlsx")

2021-10-13 12:10:58 2140

原创 python爬虫单一的py文件打包

1，下载pyinstaller库2，在需要打包的py文件同级目录执行pyinstaller -F 测试2.py#测试2.py是需要打包的py文件3，最后在需要打包的同级目录生成dist文件夹，可执行文件就在其中。

2021-10-09 14:23:54 300

原创 python中scrapy框架使用flask框架编写api接口

1在scrapy框架中编写api接口：在与setting.py同级处新建api.py，在该api.py中编写一下代码from flask import Flaskimport osapp = Flask(__name__)@app.route('/asin')#浏览器接口路径def index(): print('正在执行爬虫项目！！！') os.system('scrapy crawl fk')#fk需要执行的py文件 return '爬虫项目执行完毕！！！'

2021-09-28 11:07:37 1020 1

原创解压后缀zip的压缩包

unzip jim.zip#jim.zip为需要解压的文件，解压到当前文件夹下

2021-09-24 10:42:46 496

原创在linux中强制终止任务的执行

kill -9 任务进程号

2021-09-24 10:22:04 605

原创 mysql数据库中查找重复数据

select str1,str2,count(*) as count from table group by str1,str2 having count>1;#str1 ,str2是table表中的字段#根据str1,str2为条件来进行查找重复数据

2021-09-24 10:20:02 651

原创 Linux中删除文件夹中所有文件或子文件夹

rm -rf 文件夹

2021-09-24 10:14:49 5456

原创 linux中scp远程传输文件

scp asin_new.zip root@14.30.1.46:/opt/#asin_new.zip 是需要传输的文件#root是账户#14.30.1.46是目标IP#opt是目标下的目录

2021-09-24 09:13:37 184

原创 Linux中查看全部日志，python任务的执行线程

查看全部日志：tail -f 日志文件名python任务的执行线程： ps -ef|grep python让python任务在服务器后台运行：jim.log是日志文件nohup python3 run.py > jim.log &

2021-09-08 14:45:19 437 1

原创 python scrapy框架中如何提升爬虫获取数据效率

修改setting.py中的一些线程参数配置，# Configure maximum concurrent requests performed by Scrapy (default: 16)CONCURRENT_REQUESTS = 100# Configure a delay for requests for the same website (default: 0)# See https://docs.scrapy.org/en/latest/topics/settings.html#d

2021-09-07 16:21:34 192

原创 python scrapy框架中如何提升数据操作数据库的效率

第一步：建立数据库连接池import pymysqlfrom twisted.enterprise import adbapi# 异步更新操作class MySQLPipeline(object): def __init__(self, dbpool): self.dbpool = dbpool @classmethod def from_settings(cls, settings): # 函数名固定，会被scrapy调用，直

2021-09-07 10:56:24 318

原创 selenium打不开google的问题

在https://npm.taobao.org/mirrors/chromedriver/中找到尽可能与本机上的google版本一致的chromedriver.exe，并下载，最后将其移动到pycharm的虚拟环境中，如下图和google的安装位置中，如下图然后重新执行selenium代码即可。...

2021-08-03 09:28:00 714

原创 from pymouse import PyMouse,PyMouse报错问题

在pymouse库的初始化方法中第92行的from windows import PyMouse,PyMouseEvent改为from pymouse.windows import PyMouse,PyMouseEvent即可。

2021-06-29 15:00:20 4368 4

原创 scrapy框架的定时调度

import timeimport datetimefrom scrapy import cmdlinedef doSth(): # 把爬虫程序放在这个类里 sik是爬虫的name cmdline.execute('scrapy crawl sik'.split())# 想几点更新,定时到几点def time_ti(h=8, m=50): while True: now = datetime.datetime.now() # print(now.hour, now.m.

2021-06-11 09:03:41 473

原创 scrapy框架中数据缺失问题

yield中，在Request方法里，提供了dont_filter参数，设置在Request中，并改成True以回避过滤策略

2021-05-28 14:20:48 637

jim_lucky的博客