- 博客(10)
- 问答 (1)
- 收藏
- 关注
原创 git-hub上通过python程序爬取微博用户信息的学习记录
但是我的问题是:老是提醒我,我已经存在lxml了,所以问题关键在于requirements.txt文件中要求lxml版本为4.9.1,而我现存lxml版本为4.9.3,因此,此处debug有两种方式:1、下载4.9.1版本对应的wheel(较麻烦);2、将requirements.txt中的lxml版本改为4.9.3.此时模块安装就成功了。具体原因我也不知道,但是通过chatgpt进行了debug。就这几个小小问题,我硬是研究了3个小时,太菜了……文件,根据需要配置以下参数。文件,复制一份并重命名为。
2024-07-08 23:08:13
224
原创 数据预处理——标记社交媒体(如微博)爬取数据的重复项
主要针对问题:在微博爬取大量数据时,数据会出现重复项,标记重复项为黄色;第二层,依据重复项中评论数,保留评论数最多的一条为绿色,删除其余多余项。
2023-12-01 13:02:12
498
原创 在cmd中cd不到除了C盘以外的东西解决办法
先 cd E:\PythonProject1。再接着cd到该盘后半部分路径,然后解决。再 E:,直接跳转到E盘。
2023-11-16 20:28:46
137
1
原创 关于Loglet Lab4的使用
Loglet Lab 4使用网址如上在进行专利的技术生命周期划分的时候,可以使用网页版的Loglet Lab网页版进行数据导入。首先,选择Library合适的模型选最后一种然后在首页编辑数据在这选择预测一阶段,还是二阶段,还是三阶段这里是结果导出最下边,把图像导出.jpeg格式插入即可。个人运行结果:...
2022-05-12 16:47:25
2168
14
原创 计算困惑度
import pandas as pd#新增第六次import jiebadf = pd.read_csv("abstract after pre-process.csv", encoding='UTF-8')df.shapeimport jiebadef chinese_word_cut(mytext): return" ".join(jieba.cut(mytext))df["content_cutted"]=df.content.apply(chinese_word_cut)d.
2021-05-30 19:53:52
610
5
原创 英文文本导入去停用词
对于大段大段的英文txt文本,可以用open指令打开,手动建立stopwords字典,进行停用词处理。(附上通用词)with open('E:\\DATA\\520only abstract.txt','r',encoding='UTF-8')as f:#打开需要处理的txt文件 t=f.read()#文本命名为t from nltk import word_tokenize#分词 word_tokens=word_tokenize(t)#对t分词stopwords=['d',
2021-05-21 10:58:26
675
原创 英文文本去停用词
需要安装nltk,安装完之后还有stopwords,装在copora文件夹下边!import nltkfrom nltk.corpus import stopwordsfrom nltk.tokenize import word_tokenizeset(stopwords.words('english'))text="""Removal of amoxicillin from aqueous solution using sludge-based activated carbon modifi
2021-05-19 14:58:32
871
1
原创 英文文本分句、分词
处理英文文本时先进行分句,再进行分词,但是做完之后发现意义不大。首先要下载nltk里边的一个包,即punkt包,下载到相应的文件夹里边。import nltktext=“i don’t like learning. I think it’s a good idea.”#给出自己的文本sens=nltk.sent_tokenize(text)#分句指令print(sens)sens=nltk.word_tokenize(text)#分词指令print(sens)...
2021-05-19 12:23:27
703
原创 英文文本大小写的转换
英文文本大小写的转换python3.6#英文文文本预处理全部转换为小写txt=“文本内容,例如:Hello world!”print(txt.lower())
2021-05-19 09:32:08
340
空空如也
关于python中安装en-core-web-sm安装成功仍然不能使用的问题
2021-06-06
TA创建的收藏夹 TA关注的收藏夹
TA关注的人