Python编程
记录Python学习与实战过程中的点点滴滴
南浔Pyer
武汉大学情报学硕士在读,添砖Java中...
展开
-
Eastmoney-Spyder:股吧网页数据抓取分析(三)
看过我前两篇文章的朋友应该对本次项目非常熟悉了,这里就不再赘述。大家在进行抓取过程中会发现一个致命的问题,就是还没有抓取几个网页,自己的IP就被网站屏蔽了,博主也是这样,所以今天给大家介绍一下**IP代理池**的内容。事先声明一下,本文介绍的IP代理池并不能完全解决IP被屏蔽的问题,我这里只提供给大家一种思路,如何真正有效获取到数据需要大家自己去探索,有新方法的朋友欢迎私信我或在下方评论,仅供学习和交流!谢谢!............原创 2021-04-06 17:27:41 · 3529 阅读 · 3 评论 -
Eastmoney-Spyder:股吧网页数据抓取分析(二)
说到这里,抓取股吧数据的细节部分说的差不多了,如果我想到新的内容再和大家分享,关于IP代理池的详细使用说明,就在下一章节中再和大家分享啦,下期再见啦!(2022年更新说明:关于【IP代理池】的文章目前效果不佳,可当做业余技能学习,对抓取工作可能没有太多成效).........原创 2021-03-14 10:18:28 · 6141 阅读 · 38 评论 -
Google-Spyder:Google搜索引擎关键词检索结果抓取
Google搜索引擎关键词检索结果抓取原创 2022-08-19 21:39:54 · 2255 阅读 · 1 评论 -
Web服务器(Flask框架)连接MySQL数据库并写入数据详细教程
【写在前面】如何利用flask框架搭建的web服务器连接后端的数据库在开始这一项任务前,你需要具备的条件:①Flask框架下的web服务器已经搭建完毕②学习过数据库相关的知识③熟悉使用MySQL相关语句(本次操作使用的是Navicat数据库管理工具)最最最重要的是,你有强烈的兴趣去学会它!!!先放代码,之后我们详细讲解~from flask import Flaskfrom flask_sqlalchemy import SQLAlchemyapp = Flask(__name__)原创 2020-04-05 19:16:16 · 10898 阅读 · 1 评论 -
Python深度学习-Data Augmentation:使用Augly库进行图片数据增强
AugLy是一个数据增强库,可以帮助评估和提高模型的稳健性。该库支持四种模式(音频、视频、图像和文本),并且包含 100 多种执行数据增强的方法。如果正在从事使用音频、视频、图像或文本数据集的机器学习或深度学习项目,可以使用此库来增加数据并提高模型性能。原创 2021-12-29 15:45:41 · 1751 阅读 · 2 评论 -
Python深度学习-NLP实战:字向量的训练与生成
由于神经网络计算过程为矩阵化向量化运算,因此需要先将语料中汉字进行向量化表示,即常说的进行字嵌入(Word Embedding)。这一步操作既可以下载网络上预训练好的通用字向量,也可以自己根据特定的任务语料训练针对性更强的字向量,甚至可以直接跳过预训练,让神经网络模型自己去训练字向量。当然,字向量的优劣对模型性能的高低会产生一定的影响。按序安装所需的Python第三方库字向量的训练需要借助Python的第三方库,包括numpy-mkl、scipy、gensim。先使用pip命令安装,若出现找.原创 2021-09-02 22:39:13 · 1168 阅读 · 2 评论 -
Python深度学习-NLP实战:命名实体识别(NER)之分词与序列标注、实体识别任务简介
命名实体识别(Named Entity Recognition, NER)是信息抽取和信息检索中的一项重要任务,其目的是识别出文本中表示命名实体的成分,并对其进行分类。[1]而命名实体主要指文档中的人名、地名、机构名、时间等名词实体。[1] 刘浏,王东波.命名实体识别研究综述[J].情报学报,2018,37(03):329-340.分词与序列标注我们先从了解什么是分词和序列标注开始。分词就是找到字符串中每个词语的开头与结尾。序列标注就是输入一段字符串,输出字符串中每个字符对应的序列。通过序列.原创 2021-08-28 10:29:05 · 3562 阅读 · 0 评论 -
【Python避坑】Jupyter Notebook编辑器里局部变量与全局变量不区分?且用且注意!
最近博主一直教高中生Python入门系列的课程,为讲解方便,IDE一直用的是Jupyter Notebook。没想到,在讲到变量作用域这章的时候,发现我在代码里调用函数内部定义的局部变量,结果在函数外面也可以使用,我**?运行了好几遍,差点让我以为是现在的编辑器已经不区分了,结果到PyCharm里运行一遍之后,发现报错了!猛然意识到,原来Jupyter Notebook…问题报错问题解决当我在Jupyter Notebook中一直能成功运行的时候,我突然想到一个问题,就是它会将我们运行.原创 2021-08-26 08:53:54 · 3431 阅读 · 2 评论 -
Pycharm报错:Error running ‘‘: Cannot run program “\python.exe“ (in directory ““)系统找不到指定文件夹?已解决!
今天在跑SVM新语料分类任务的时候,因为F盘快满了,我就把跑过其他语料SVM工程直接拖到D盘上了,结果PyCharm打开后,直接不能运行???一开始以为是解释器的路径问题,我就在Python Interpreter中重新设置了python路径,结果还是不行???这就纳闷了,好在我靠绝顶的小脑瓜找到了问题缘由!问题报错报错原因:因为我的工程在之前的路径下运行过,所以PyCharm保存过项目的一些信息,而这些信息还是在之前路径下的配置。解决办法在该项目文件夹下找到一个叫.idea的文件夹。.原创 2021-08-21 21:48:53 · 14157 阅读 · 9 评论 -
Python调用os.path.abspath输出的路径不存在?已解决!
os.path.abspath()取决于os.getcwd(),如果参数是一个绝对路径,就返回。如果不是绝对路径,根据编码执行getcwd,然后把path和当前工作路径连接起来,此时的工作路径可能不存在。import osprint(os.getcwd())print(os.path.abspath("data.txt")) # 该输出路径不存在print(os.path.abspath(r"F:\NanXun\我的学习\Python系列教程\代码\文件读写\data.txt"))F:\N.原创 2021-08-17 12:00:29 · 1095 阅读 · 2 评论 -
Python使用a+模式读取文本内容为空?已解决!
在Python中读取文本使用a+模式打开文本文件,直接读取文件f.read()返回的数据为空。是因为read()方法取到的是光标之后的数据,而a+是追加文本,光标默认在最后,所以取到的数为空.需要使用f.seek(0),将光标移动到下标为0的位置后,再使用f.read()方法就可以取到全部数据。f = open("helloworld.txt", mode="a+", encoding="utf8")# print(f)f.seek(0) # 光标移到下标为0的位置content = f.r.原创 2021-08-17 11:55:02 · 1549 阅读 · 0 评论 -
Python:wordcloud词云可视化展示!代码已奉上!
wordcloud词云可视化1 数据集格式2 所用到的库3 读取TXT文件4 主函数5 构建词云6 词云展示1 数据集格式【已上传至资源:media.txt】山西新闻网陕西法院网潇湘法制现场最高法网站中国新闻网深圳晚报法治日报人民法治陕西法院网文汇报江苏法制报云南法制报新浪内蒙古潇湘晨报吉林大酱缸江西省政府网站人民网法制网潇湘晨报......2 所用到的库from wordcloud import WordCloudimport matplotlib.py原创 2021-05-19 02:29:14 · 550 阅读 · 1 评论 -
Python:wordcloud构建词云出现关键字重复的情况!已解决!
写在前面如图所示,这个词云展示的内容出现了同一关键词重复的现象,这并不是我们想要的问题解决其实这种情况与collocations参数有关,默认collocations=True,会统计搭配词。比如你的text是“我爱码代码”,当collocations为True时,就会把“码代码”也当作一个词进行统计,所以会出现重复。所以添加collocations=False即可。from wordcloud import WordCloudwc = WordCloud( font_path=fon原创 2021-05-19 01:54:11 · 10073 阅读 · 11 评论 -
Python深度学习-NLP实战:深度学习系列培训教程
Python深度学习-NLP实战:深度学习系列培训教程前言1.Linux服务器及命令的简单使用(1课时)2.训练集、测试集、验证集的介绍及制作(1课时)3.深度学习下的文本分类——SVM、BERT、FASTTEXT(1课时)4.深度学习下的序列标注——CRF、LSTM、BILSTM、BILSTM+CRF(2课时)5.深度学习下的实体识别(1课时)前言朋友们,深度学习技术听起来高深莫测,但大家或多或少都对深度学习有一些了解,为了各位以后能根据自身需要随时随地训练深度学习模型,顺利跟上任务进度,因此我准备和原创 2021-05-18 11:56:46 · 629 阅读 · 0 评论 -
Python报错:moduleNotFoundError:No module named ‘exceptions‘
报错如下:使用 pip install docx 安装模块 docx 后,发现不能正常使用,并报错 : from exceptions import PendingDeprecationWarningModuleNotFoundError: No module named 'exceptions'解决方法卸载原来安装的docxpip uninstall docx安装 python-docx 模块即可pip install python-docx...原创 2021-05-16 07:58:39 · 4066 阅读 · 2 评论 -
Python深度学习-NLP实战:FastText实现中文文本分类(代码已跑通!)
目录前言一、项目说明二、实施过程1.明确获取网页中哪些数据2.查看网页源代码分析结构① 网页源代码② 网页链接3.爬虫需要具备的功能4.爬取结果总结前言朋友托我写个爬虫,本身是个爬虫小白的我还是接受了此次重任,总共历时五天左右,过程中遇到过无数bug,好在一路披荆斩棘,还是大差不差的完成了此次委托!但感觉这次的经历还是有必要和大家分享一下,正好最近也没有写博文了,趁这次机会赶赶进度!【声明】本人就是爬虫小白,后续讲解的代码较为基础,请大家不要嘲笑!谢谢配合!真心感谢!一、项目说明项目需求:股吧原创 2021-05-05 17:56:19 · 5623 阅读 · 4 评论 -
Pyinstaller实现Python脚本打包成exe文件!全网最详细!
博主最近写完了最新版的东方财富网爬虫程序后,由于需要的数据量太大,靠一台电脑工作等爬完估计都大学毕业了…所以想着把任务分一下,多用几台实验室的电脑上跑程序。涉及到相关环境的配置,自己又不想挨个配环境,于是想到了能不能通过打包exe文件的形式,一键启动!不得不说,确实是个好办法!写在前面本文通过Pyinstaller实现Python程序打包成exe文件,好处主要有两点:在任意一台没有Python环境的电脑上支持一键启动,无需配置任何参数(脚本路径需为相对路径)。没有坏处。...原创 2021-05-02 22:00:56 · 2735 阅读 · 12 评论 -
Python:TypeError: ‘str‘ object does not support item assignment
问题重述想模仿C语言的写法,用Python实现对文本格式存储的数据进行增删改操作。在删除函数中,遇到了下面这个问题>>>当前数据库记录:********************************************0 国外食品欺诈进展研究及对我国的启示 董明月;李远钊;杨雪;张佳兵;王军; 食品掺假;食品欺诈;食品安全;预防 食品掺假和欺诈问题在世界范围内日益受到关注。以欧美为代表的发达国家针对食品欺诈已经展开了一系列研究,本文从食品欺诈基础数据库的构建、食品欺诈预原创 2021-04-26 08:18:44 · 1771 阅读 · 0 评论 -
Python:from aip import AipOcr ModuleNotFoundError: No module named ‘aip‘
问题from aip import AipOcrModuleNotFoundError: No module named 'aip'原因aip和baidu-aip不是同一个包,但是在import的时候,都是使用:import aip解决pip uninstall aippip install baidu-aip原创 2021-04-26 08:15:59 · 4951 阅读 · 4 评论 -
Python:ValueError: invalid literal for int() with base 10: ‘‘
用int()函数可以将字符串转换为整型,但是切记int()只能转化由纯数字组成的字符串。非纯数字组成的字符串强转为整型会报错:ValueError: invalid literal for int() with base 10原创 2021-04-25 23:19:08 · 1132 阅读 · 0 评论 -
Python:pyinstaller打包exe出现“Failed to execute script pyi_rth_qt5plugins”
问题描述用pyinstaller -F **.py命令把.py文件打包成exewindows可执行程序后出现以下错误:ImportError:Dll load failed :找不到指定模块。Failed to execute script pyi_rth_qt5plugins解决方法在打包成exe时,手动指定PyQt5 库bin目录。Python:pip install PyQT5下载安装 [不看我可能会报错哦]# 模板pyinstaller --path <PyQt5 b原创 2021-04-24 17:01:42 · 616 阅读 · 0 评论 -
Python:pip install PyQT5下载安装
PyQt5不再提供Qt Designer等工具,所以需要安装pyqt5-toolspip install pyqt5-tools(test) D:\Desktop\文件夹\Oriental_Fortune_Hot_Post\newwork\data\000725-002045>pip install pyqt5-toolsLooking in indexes: https://pypi.tuna.tsinghua.edu.cn/simpleCollecting pyqt5-tools D原创 2021-04-24 13:22:55 · 3063 阅读 · 0 评论 -
Python报错:Fatal error in launcher: Unable to create process using “e:\...\python.exe“
发现问题(python3.7) D:\Desktop\文件夹\Oriental_Fortune_Hot_Post\newwork\data\000725-002045>pyinstaller -F OFHP.pyFatal error in launcher: Unable to create process using '"e:\anaconda3\envs\tf2.0\python.exe" "E:\Anaconda3\envs\python3.7\Scripts\pyinstaller.e原创 2021-04-23 15:00:01 · 5918 阅读 · 10 评论 -
Python:两种方法实现在命令行中使用print打印不同的颜色
显示颜色格式:\033[显示方式;字体色;背景色m…[\033[0m书写格式:开头部分:\033[显示方式;前景色;背景色m + 结尾部分:\033[0m解释:开头部分的三个参数:显示方式,前景色,背景色是可选参数,可以只写其中的某一个;由于表示三个参数不同含义的数值都是唯一的没有重复的,所以三个参数的书写先后顺序没有固定要求,系统都能识别; 建议按照默认的格式规范书写。对于结尾部分,其实也可以省略,但是为了书写规范,建议\033[***开头,\033[0m结尾。数值表示的参数含义转载 2021-04-23 13:13:39 · 2088 阅读 · 1 评论 -
Python3.7:使用csv模块的writerow()函数保存的csv文件产生空行
写在前面最近在做语料的时候发现这样一个问题,用csv模块生成的文件每条数据都跟了一行空行,如下图所示:代码结构解决办法在open()内增加一个参数newline=’’ 即可,代码结构如下:with open(path, 'w', newline='')as f: f_csv = csv.writer(f) for i in tqdm(range(len(entity))): row = [] if i < len(entity):原创 2021-03-30 09:44:22 · 1995 阅读 · 0 评论 -
Python:修改Anaconda虚拟环境的名称
Anaconda没有重命名命令,因此使用克隆删除的方法进入旧环境conda activate old_name克隆旧环境conda create -n new_name --clone old_name退出旧环境conda deactivate删除旧环境conda remove -n old_name --all查看最终结果conda info --envs...原创 2021-03-21 20:44:37 · 3506 阅读 · 8 评论 -
Python解决replace函数替换无效问题
问题最近做实体关系标注与抽取任务时,需要将每段语料按句号换行写入文本文件中,于是我就想到了用replace函数,没想到看似简单的一个函数,却折腾了我许久,替换无效可咋整??subtext = "\n\n".join(sublist) # 其中一个段落语料subtext.replace("。/wj", "。/wj\n\n")# print(subtext)baseio.writetxt_a_truncate(subtext, __path)解决方法关于 string 的 replace 方法,原创 2021-03-03 21:47:42 · 2902 阅读 · 5 评论 -
Python清除TXT文本内容重新写入
问题Python 追加写入文件:#写txt文件追加def writetxt_a(txt,path): with codecs.open(path,'a','utf-8') as w: w.write(txt)那么再次调用该函数时,如何清除原有文本内容呢?解决方法#写txt文件追加def writetxt_a(txt,path): with codecs.open(path,'a','utf-8') as w: w.seek(0) # 定位原创 2021-03-03 21:17:07 · 9241 阅读 · 6 评论 -
pip install selenium一直失败已解决
更换安装命令python -m pip install selenium原创 2021-02-19 21:30:34 · 1523 阅读 · 1 评论 -
UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\u301c‘ in position 2321: illegal multibyte
问题python写入文件writer = open('stopwords.txt')报错UnicodeEncodeError: 'gbk' codec can't encode character '\u301c' in position 2321: illegal multibyte解决方案writer = open('stopwords.txt', 'w', encoding='utf-8')原创 2021-02-18 14:47:41 · 424 阅读 · 0 评论 -
Python报错:UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x80 in position xx: 已解决
问题python读取文件with open('stopwords.txt') as f: # 打开新的文本 text = f.read() # 读取文本数据报错UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 145: illegal multibyte sequence解决方案with open('stopwords.txt','r',encoding='utf-8') as f: # 打开新原创 2021-02-18 14:37:01 · 439 阅读 · 0 评论 -
openpyxl.utils.exceptions.IllegalCharacterError报错有效解决方案
在使用openxyl写入excel的时候,可能会出现openpyxl.utils.exceptions.IllegalCharacterError的提示错误 。根据提示可以知道是openpyxl模块中的错误。解决方案:进入报错路径,查看cell.py文件,找到报错位置 def check_string(self, value): """Check string coding, length, and line break character""" if valu.原创 2021-01-30 21:46:27 · 8277 阅读 · 1 评论 -
Python OS:实现批量更改当前文件夹名称
使用到的OS函数os.listdir(path) #返回指定的文件夹包含的文件或文件夹的名字的列表os.chdir(path) #在更新之前一定要切换当前新路径pathos.rename(old_dirname,new_dirname) # 更新文件夹名称os.getcwd() # 返回当前工作目录代码如下:# 目标:更新all_data文件夹中所以文件夹名称# old_dirname:'n02105056-groenendael'# new_dirname:'02105056'imp原创 2021-04-21 13:02:30 · 329 阅读 · 0 评论 -
python执行os.rename 报错:FileNotFoundError: [Errno 2] No such file or directory:*
1. 报错代码# -*- coding: utf-8 -*-import os, sysfrom tqdm import tqdmpath = '/home/ugrad/LeiWang/CNN/all_data' #所需修改文件夹所在路径dirs = os.listdir(path) for dir in tqdm(dirs): print(dir) os.rename(dir,str(dir.split("-")[0][1:]))# 打印出重命名后的目录print原创 2021-04-21 12:53:10 · 2030 阅读 · 1 评论 -
Python自动生成requirements.txt文件
生成虚拟环境中所有库requirements.txt文件pip freeze > requirements.txt生成本项目中所使用库的requirements.txt文件pip install pipreqs #当前项目根目录下执行pipreqs .若报错:UnicodeDecodeError: 'gbk' codec can't decode byte 0x82 in position 49: illegal multibyte sequence则更改执行命令为:pipreqs原创 2021-04-03 19:53:24 · 275 阅读 · 0 评论 -
python3.7读取csv文件报错:UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xd0 in position 0成功解决
问题描述今天使用pandas读取csv文件时,遇到字符编码的错误,如下:UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd0 in position 0其实修改的方式很简单,只要更换csv文件的编码方式即可。问题解决用Notepad++或普通的记事本打开csv文件可以看到默认的编码为GB2312(Simplified)将其修改成UTF-8 ,再次运行,读取成功!...原创 2021-03-30 12:46:58 · 1145 阅读 · 0 评论 -
python不相等的两个字符串的 if 条件判断为True详解
2020年12月7日 大雪今日难忘,思问题良久,终乃解特写此篇,供友人借鉴,勿再犯今天处理LSTM语料的时候,想把语料中的空字符、空格,\t都去掉于是就写了一个if判断语句,结果处理完的语料始终还是有这些字符来来回回搞了好几遍,还是不行,我人傻了一个多小时过去了,我终于找到了问题原来TMD****(见下图)不要嘲笑我hxd们,谢谢!...原创 2020-12-07 20:28:31 · 741 阅读 · 0 评论 -
Python3.7:使用you-get库轻轻松松免费下载网络视频
这其实是上一篇博客的后续,因为有同学反应固桥使用助手的下载视频次数有限,之后还是得氪金,这我哪能答应!于是上GitHub中又找了一番,找到了一个非常牛*的方法!话不多说,我们开始吧!【写在前面】本次操作具备的前提条件:最新的Python3.7版本(不是最新的也可以试一下看看行不行,因为我的电脑上没有装python的其他版本所以不太确定)在我使用后发现,主要支持的网站有腾讯视频,优酷视频...原创 2020-04-06 10:43:05 · 485 阅读 · 0 评论 -
python调用别的文件夹下的py文件
import osos.system("python 绝对路径")原创 2020-03-17 12:08:41 · 594 阅读 · 0 评论 -
Python报错ERROR: Command errored out with exit status 1: 解决方法:
Python报错ERROR: Command errored out with exit status 1:解决方法:1、以管理员身份打开cmd2、pip install robotframework-AutoItLibrary (本次安装时Python基于3.6.3,pip为最新版本)3、安装成功...原创 2020-03-17 08:49:52 · 18275 阅读 · 9 评论