自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 问答 (1)
  • 收藏
  • 关注

原创 git-hub上通过python程序爬取微博用户信息的学习记录

但是我的问题是:老是提醒我,我已经存在lxml了,所以问题关键在于requirements.txt文件中要求lxml版本为4.9.1,而我现存lxml版本为4.9.3,因此,此处debug有两种方式:1、下载4.9.1版本对应的wheel(较麻烦);2、将requirements.txt中的lxml版本改为4.9.3.此时模块安装就成功了。具体原因我也不知道,但是通过chatgpt进行了debug。就这几个小小问题,我硬是研究了3个小时,太菜了……文件,根据需要配置以下参数。文件,复制一份并重命名为。

2024-07-08 23:08:13 224

原创 百度指数网站——检索时间范围基本确定

在对微博数据检索之前,可以根据百度指数中帖子数量的多少,基本确定检索的时间范围。

2024-06-16 21:08:19 167

原创 数据预处理——标记社交媒体(如微博)爬取数据的重复项

主要针对问题:在微博爬取大量数据时,数据会出现重复项,标记重复项为黄色;第二层,依据重复项中评论数,保留评论数最多的一条为绿色,删除其余多余项。

2023-12-01 13:02:12 498

原创 在cmd中cd不到除了C盘以外的东西解决办法

先 cd E:\PythonProject1。再接着cd到该盘后半部分路径,然后解决。再 E:,直接跳转到E盘。

2023-11-16 20:28:46 137 1

原创 关于Loglet Lab4的使用

Loglet Lab 4使用网址如上在进行专利的技术生命周期划分的时候,可以使用网页版的Loglet Lab网页版进行数据导入。首先,选择Library合适的模型选最后一种然后在首页编辑数据在这选择预测一阶段,还是二阶段,还是三阶段这里是结果导出最下边,把图像导出.jpeg格式插入即可。个人运行结果:...

2022-05-12 16:47:25 2168 14

原创 计算困惑度

import pandas as pd#新增第六次import jiebadf = pd.read_csv("abstract after pre-process.csv", encoding='UTF-8')df.shapeimport jiebadef chinese_word_cut(mytext): return" ".join(jieba.cut(mytext))df["content_cutted"]=df.content.apply(chinese_word_cut)d.

2021-05-30 19:53:52 610 5

原创 英文文本导入去停用词

对于大段大段的英文txt文本,可以用open指令打开,手动建立stopwords字典,进行停用词处理。(附上通用词)with open('E:\\DATA\\520only abstract.txt','r',encoding='UTF-8')as f:#打开需要处理的txt文件 t=f.read()#文本命名为t from nltk import word_tokenize#分词 word_tokens=word_tokenize(t)#对t分词stopwords=['d',

2021-05-21 10:58:26 675

原创 英文文本去停用词

需要安装nltk,安装完之后还有stopwords,装在copora文件夹下边!import nltkfrom nltk.corpus import stopwordsfrom nltk.tokenize import word_tokenizeset(stopwords.words('english'))text="""Removal of amoxicillin from aqueous solution using sludge-based activated carbon modifi

2021-05-19 14:58:32 871 1

原创 英文文本分句、分词

处理英文文本时先进行分句,再进行分词,但是做完之后发现意义不大。首先要下载nltk里边的一个包,即punkt包,下载到相应的文件夹里边。import nltktext=“i don’t like learning. I think it’s a good idea.”#给出自己的文本sens=nltk.sent_tokenize(text)#分句指令print(sens)sens=nltk.word_tokenize(text)#分词指令print(sens)...

2021-05-19 12:23:27 703

原创 英文文本大小写的转换

英文文本大小写的转换python3.6#英文文文本预处理全部转换为小写txt=“文本内容,例如:Hello world!”print(txt.lower())

2021-05-19 09:32:08 340

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除