自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 python中的str类型的list转化&两层list类型数据的过滤

【代码】python中的str类型的list转化&两层list类型数据的过滤。

2024-04-13 13:31:13 92

原创 python读取磁盘文件信息

【代码】python读取磁盘文件信息。

2023-02-08 16:53:52 685

原创 python下载图片至本地

【代码】python下载图片至本地。

2022-12-15 17:24:45 255

原创 Python爬虫多线程爬取

仅作参考仅使用threadpool库:task_pool = threadpool.ThreadPool(50)#开50个线程 requests = threadpool.makeRequests(self.threading_thread, self.list_all)#self.threading_thread为请求代码所在函数,self.list_all所传参数,不支持元组类型 # print(requests) for req in req

2022-01-19 16:04:32 379

原创 python中selenium填写select框

from selenium.webdriver.support.select import Select先找到select框的位置,我这里使用css选择器定位ji=self.driver.find_element_by_css_selector('#sm_code')Select(ji).select_by_visible_text(date04)date04是我需要填写到select框中的数据...

2021-12-28 10:05:41 401

原创 python中对excel表格数据的修改,插入,删除,获取

修改:xlrd库与xlutils库结合import xlrdfrom xlutils.copy import copydef oop1(): work = xlrd.open_workbook("ceshishujvku.xlsx") old_cibtent=copy(work) ws=old_cibtent.get_sheet(0) ws.write(2,1,'jimclear')#第2列第1行 old_cibtent.save("jim.xlsx")

2021-10-13 12:10:58 1983

原创 python爬虫单一的py文件打包

1,下载pyinstaller库2,在需要打包的py文件同级目录执行pyinstaller -F 测试2.py#测试2.py是需要打包的py文件3,最后在需要打包的同级目录生成dist文件夹,可执行文件就在其中。

2021-10-09 14:23:54 227

原创 python中scrapy框架使用flask框架编写api接口

1在scrapy框架中编写api接口:在与setting.py同级处新建api.py,在该api.py中编写一下代码from flask import Flaskimport osapp = Flask(__name__)@app.route('/asin')#浏览器接口路径def index(): print('正在执行爬虫项目!!!') os.system('scrapy crawl fk')#fk需要执行的py文件 return '爬虫项目执行完毕!!!'

2021-09-28 11:07:37 816

原创 解压后缀zip的压缩包

unzip jim.zip#jim.zip为需要解压的文件,解压到当前文件夹下

2021-09-24 10:42:46 344

原创 在linux中强制终止任务的执行

kill -9 任务进程号

2021-09-24 10:22:04 501

原创 mysql数据库中查找重复数据

select str1,str2,count(*) as count from table group by str1,str2 having count>1;#str1 ,str2是table表中的字段#根据str1,str2为条件来进行查找重复数据

2021-09-24 10:20:02 556

原创 Linux中删除文件夹中所有文件或子文件夹

rm -rf 文件夹

2021-09-24 10:14:49 5342

原创 linux中scp远程传输文件

scp asin_new.zip [email protected]:/opt/#asin_new.zip 是需要传输的文件#root是账户#14.30.1.46是目标IP#opt是目标下的目录

2021-09-24 09:13:37 75

原创 Linux中查看全部日志,python任务的执行线程

查看全部日志:tail -f 日志文件名python任务的执行线程: ps -ef|grep python让python任务在服务器后台运行:jim.log是日志文件nohup python3 run.py > jim.log &

2021-09-08 14:45:19 314 1

原创 python scrapy框架中如何提升爬虫获取数据效率

修改setting.py中的一些线程参数配置,# Configure maximum concurrent requests performed by Scrapy (default: 16)CONCURRENT_REQUESTS = 100# Configure a delay for requests for the same website (default: 0)# See https://docs.scrapy.org/en/latest/topics/settings.html#d

2021-09-07 16:21:34 104

原创 python scrapy框架中如何提升数据操作数据库的效率

第一步:建立数据库连接池import pymysqlfrom twisted.enterprise import adbapi# 异步更新操作class MySQLPipeline(object): def __init__(self, dbpool): self.dbpool = dbpool @classmethod def from_settings(cls, settings): # 函数名固定,会被scrapy调用,直

2021-09-07 10:56:24 252

原创 selenium打不开google的问题

在https://npm.taobao.org/mirrors/chromedriver/中找到尽可能与本机上的google版本一致的chromedriver.exe,并下载,最后将其移动到pycharm的虚拟环境中,如下图和google的安装位置中,如下图然后重新执行selenium代码即可。...

2021-08-03 09:28:00 573

原创 from pymouse import PyMouse,PyMouse报错问题

在pymouse库的初始化方法中第92行的from windows import PyMouse,PyMouseEvent改为from pymouse.windows import PyMouse,PyMouseEvent即可。

2021-06-29 15:00:20 3849 4

原创 scrapy框架的定时调度

import timeimport datetimefrom scrapy import cmdlinedef doSth(): # 把爬虫程序放在这个类里 sik是爬虫的name cmdline.execute('scrapy crawl sik'.split())# 想几点更新,定时到几点def time_ti(h=8, m=50): while True: now = datetime.datetime.now() # print(now.hour, now.m.

2021-06-11 09:03:41 351

原创 scrapy框架中数据缺失问题

yield中,在Request方法里,提供了dont_filter参数,设置在Request中,并改成True以回避过滤策略

2021-05-28 14:20:48 500

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除