自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

XXACY123321的博客

原创 git-hub上通过python程序爬取微博用户信息的学习记录

但是我的问题是：老是提醒我，我已经存在lxml了，所以问题关键在于requirements.txt文件中要求lxml版本为4.9.1，而我现存lxml版本为4.9.3，因此，此处debug有两种方式：1、下载4.9.1版本对应的wheel（较麻烦）；2、将requirements.txt中的lxml版本改为4.9.3.此时模块安装就成功了。具体原因我也不知道，但是通过chatgpt进行了debug。就这几个小小问题，我硬是研究了3个小时，太菜了……文件，根据需要配置以下参数。文件，复制一份并重命名为。

2024-07-08 23:08:13 224

原创百度指数网站——检索时间范围基本确定

在对微博数据检索之前，可以根据百度指数中帖子数量的多少，基本确定检索的时间范围。

2024-06-16 21:08:19 167

原创数据预处理——标记社交媒体（如微博）爬取数据的重复项

主要针对问题：在微博爬取大量数据时，数据会出现重复项，标记重复项为黄色；第二层，依据重复项中评论数，保留评论数最多的一条为绿色，删除其余多余项。

2023-12-01 13:02:12 498

原创在cmd中cd不到除了C盘以外的东西解决办法

先 cd E:\PythonProject1。再接着cd到该盘后半部分路径，然后解决。再 E:，直接跳转到E盘。

2023-11-16 20:28:46 137 1

原创关于Loglet Lab4的使用

Loglet Lab 4使用网址如上在进行专利的技术生命周期划分的时候，可以使用网页版的Loglet Lab网页版进行数据导入。首先，选择Library合适的模型选最后一种然后在首页编辑数据在这选择预测一阶段，还是二阶段，还是三阶段这里是结果导出最下边，把图像导出.jpeg格式插入即可。个人运行结果：...

2022-05-12 16:47:25 2168 14

原创计算困惑度

import pandas as pd#新增第六次import jiebadf = pd.read_csv("abstract after pre-process.csv", encoding='UTF-8')df.shapeimport jiebadef chinese_word_cut(mytext): return" ".join(jieba.cut(mytext))df["content_cutted"]=df.content.apply(chinese_word_cut)d.

2021-05-30 19:53:52 610 5

原创英文文本导入去停用词

对于大段大段的英文txt文本，可以用open指令打开，手动建立stopwords字典，进行停用词处理。（附上通用词）with open('E:\\DATA\\520only abstract.txt','r',encoding='UTF-8')as f:#打开需要处理的txt文件 t=f.read()#文本命名为t from nltk import word_tokenize#分词 word_tokens=word_tokenize(t)#对t分词stopwords=['d',

2021-05-21 10:58:26 675

原创英文文本去停用词

需要安装nltk，安装完之后还有stopwords，装在copora文件夹下边!import nltkfrom nltk.corpus import stopwordsfrom nltk.tokenize import word_tokenizeset(stopwords.words('english'))text="""Removal of amoxicillin from aqueous solution using sludge-based activated carbon modifi

2021-05-19 14:58:32 871 1

原创英文文本分句、分词

处理英文文本时先进行分句，再进行分词，但是做完之后发现意义不大。首先要下载nltk里边的一个包，即punkt包，下载到相应的文件夹里边。import nltktext=“i don’t like learning. I think it’s a good idea.”#给出自己的文本sens=nltk.sent_tokenize(text)#分句指令print(sens)sens=nltk.word_tokenize(text)#分词指令print(sens)...

2021-05-19 12:23:27 703

原创英文文本大小写的转换

英文文本大小写的转换python3.6#英文文文本预处理全部转换为小写txt=“文本内容，例如：Hello world！”print(txt.lower())

2021-05-19 09:32:08 340

空空如也

关于python中安装en-core-web-sm安装成功仍然不能使用的问题

2021-06-06

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除