自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 bat脚本一键打开软件遇到的问题

由此猜测,vscode启动需要占用整个cmd进程的所有资源为其服务,把start "" "D:\VScode\Microsoft VS Code\Code.exe"语句放在最后vscode可以获得所有资源成功启动,此时bat自动关闭。而在除末尾外的其他位置,有其他进程占用了vscode启动所需资源,vscode提供的标准启动方式 start "" code会创建新的cmd进程为其服务来避免这种情况,但是当vscode启动成功后,vscode没有杀死这个新的cmd进程。解决办法:将脚本改为ANSI编码即可。

2024-10-01 12:42:15 404

原创 使用jieba对.xls文件中的文字进行分词操作,词频统计

【代码】使用jieba对.xls文件中的文字进行分词操作,词频统计。

2024-09-21 20:24:29 125

原创 从军游戏国际服启动器crash report崩溃问题

推测是启动器兼容性问题,一直找不到解决办法。我每次都是多次重启电脑,启动器才正常工作,然后艰难地进入游戏。使用跨区入库的方式(目前steam国区无法下载从军),从steam登录,才彻底解决了从军登录报错问题。跨区入库的方法在此不多赘述。b站有专门讲steam如何跨区。直到今年从军终于上线steam。

2024-08-08 23:43:05 295

原创 使用Python将pdf第i页转为png图片

得到上图计算机设计大赛png图片。第一步,提取第i页为单独pdf。第二步,将单独pdf转为png。

2024-07-04 00:12:01 166

原创 scrapy框架爬取小说并用edge_tts制作有声书

整个项目要求会使用scrapy框架,edge_tts库,mysql数据库,整体思路:由于scrapy框架的异步性,不能在代码中直接把每一页小说文字存进txt,于是引入mysql数据库。给每一页内容编一个页码,等到爬取完成,另外编写代码按页码顺序从mysql中读取内容存入字符串中,将整本小说传入edge_tts中生成MP3文件。目录一:scrapy框架爬取小说存入mysql二:从mysql中按顺序读取数据拼接成文章生成有声书。

2024-06-13 23:53:25 297

原创 Java压缩流批量压缩文件上传至网盘

以百度网盘为例,上传单一压缩包大小不能超过2GB,而我们的.mp4格式的学习视频每一个都有1GB左右,不能直接将整个500GB的文件夹压缩上传,只能一个视频一个视频地压缩。我们不可能手动一个一个压缩这几百个视频,故使用Java压缩流,遍历文件夹,压缩每个.mp4文件,代码如下。如图,我们成功将学习资料压缩成zip,保存在java工程目录中。

2024-05-28 18:04:08 181

原创 使用Scrapy爬取笔趣阁全部小说标题和简介

如图,发现笔趣阁的书本URL排列规律是https://www.bigee.cc/book/i/设置start_urls爬取第一个页面https://www.bigee.cc/book/1/重写start_requests函数,for循环生成全部书本的请求,交给调度器。注:scrapy genspider <爬虫名> <允许爬取的域名>在Settings中设置不遵守机器人协议,设置最大并行请求数为100。在管道中把数据存入description。输入命令创建scrapy 工程。启动爬虫,设置记录爬虫状态。

2024-04-29 10:49:37 270

原创 用Python numpy实现非线性回归

注意,绘制拟合曲线的时候需要将原始的x轴数据去重然后升序,否则会像下面一样出现多条曲线。将原始x去重排序后,用生成的拟合函数生成对应y,在图上绘制,结果如下。有以下非线性关系的数据散点图。

2024-04-21 20:01:31 237 1

原创 对scrapy最大并发request的测试记录

首先是默认允许同时存在16个Request,设置了时延为0.1s,并设置随机时延。取消时延,设置最大并发Request为32。爬取7500个html页面花费约20分钟。从结果来看,设置为100对性能没有提升。爬取7500个页面花费约17分钟。爬取7500个页面花费约17分钟。

2024-04-01 22:47:59 138

原创 scrapy_redis存数据到redis中文乱码问题

查阅大量资料问了gpt还是找不到解决办法,最后通过阅读源码发现scrapy_redis对我们的item进行了序列化操作然后将item变成json字符串传递给redis,使得中文在redis中变成了形如。python按理来说会自动解析Unicode 转义序列变成中文,我们取数据的时候中文还是Unicode 转义序列。scrapy_redis的管道会自动帮我们把item传到redis中,但是查看redis发现出现了中文乱码。发现python已经自动将Unicode 转义序列变成中文。

2024-03-25 08:00:00 299 2

原创 su: Authentication failure

这是因为没有给root设置账号密码。

2024-03-18 08:00:00 465

原创 Pycharm scrapy框架爬取gbk编码方式的网站数据写入txt文件乱码

这是因为pycharm默认字符集是UTF-8,with open若不指定字符集,会保持原来的编码方式。在pycharm中查看该txt文件会乱码,用记事本打开不会。解决办法:写入时指定字符集为UTF-8即可。

2024-03-15 22:29:16 224

原创 scrapy框架爬虫报错UnicodeDecodeError

File "c:\users\卡尔\mysoftward\python3.7.9\lib\site-packages\scrapy\robotstxt.py", line 15, in decode_robotstxt。似乎是因为scrapy默认遵守robots协议,发生了错误。在settings.py中拒绝遵守robots协议即可。

2024-03-15 21:46:35 860

原创 Python用pip install selenium导入selenium包报错

如果还是不行,解决办法就是换国内的源,-i后面指定路径,selenium==后面指定版本号。原因估计是数据传输过程中丢包了,多试几次就好。

2024-03-07 15:49:55 501

原创 Python本地已经导入pillow包,但是无法在IDLE或idea导入pillow包

经过查阅资料,发现导入pillow包名要写PIL。IDLE无法导入pillow。

2024-03-06 21:50:53 266

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除