自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 资源 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 python list转换字符串报错TypeError: sequence item 0: expected str instance, flaot found

目的:将一个列表中的元素写入文档中。错误说明:列表中存在float类型的数字,与写入文档的要求的字符串类型不符,故需要进行进一步转换成str类型的数据。...

2019-12-06 15:23:03 3114

原创 BTM主题模型构建及困惑度计算

小白一枚,有什么不对的地方请多指教。BTM主题模型主要针对短文本而言,这里实现的方法主要参考论文《A Biterm Topic Model for Short Texts》,代码在作者的github上也有上传,我主要参考的是它的python版本:https://github.com/jasperyang/BTMpy本文主要在以上基础上加入困惑度计算,困惑度计算公式如下所示:其中def pe...

2019-10-19 02:35:26 8855 11

原创 KeyError: "word '在行' not in vocabulary"

在调用别人训练好的word2vec模型时遇到以上问题,于是联想到对该模型进行更新操作。网上查了很多教程后,仍旧出现上面的报错。原因在于没有注意原有模型设定的min_count值,只加入了一次该词。若原有模型的min_count值为5时,需要加入五次该词,不知道这种简单粗暴 的操作会不会影响原有模型的精度。代码如下:sentences = [['在行','在行','在行','在行','在行...

2019-07-19 08:27:21 5759 2

原创 ConnectionResetError: [WinError 10054] 远程主机强迫关闭了一个现有的连接。

用python调用百度地图api进行地理匹配,总是碰到这个问题,因为样本量很大,爬到几千的时候就报错,尝试了在循环的过程中time.sleep(1)操作,但没什么用,还是会报错,只能把样本拆分成小样本,十分麻烦。最后在调用的函数里写入了try…except,可行...

2019-04-09 09:20:11 2544

原创 bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need

bs4.FeatureNotFound: Couldn’t find a tree builder with the features you requested: lxml. Do you need to install a parser library?1出现问题:python3使用BeautifulSoup进行网页爬取,报错如上,使用python3,运行平台为pycharm解决方法:s...

2019-04-03 17:05:05 758 1

原创 python爬虫小记(2)

import urllib.requestimport reimport pypinyinimport timedef getresources(url):webSourceCode = urllib.request.urlopen(url).read().decode(“gbk”, “ignore”)contentRe = re.compile(r’ (.?) .? ‘)conte...

2019-03-21 09:06:34 186

原创 python爬虫小记

最近的学习过程中需要用到旅游景点信息,于是找了个旅游网站准备爬取上面的信息。采取的是urllib+正则表达式的方法。遇到的问题是返回的指定项信息为空,原因出在正则表达式上面,粗暴地把整张网页的信息打印了出来,然后找到想要的信息处,直接复制下来后输入正则表达式的匹配处,成功。...

2019-03-20 15:32:18 164

原创 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xdf in position 12: invalid continuation byte

python处理文本文件时经常碰到这种编码错误的问题,这里做一个笔记记录一下自己的解决方法。1、将要打开的文档用记事本打开,另存为utf-8格式;2、在打开文件的代码后面加上encoding=utf-8;3、将encoding = utf-8 改为encoding = utf-8-sig;4、将打开模式改为rb。...

2019-03-06 09:12:38 2210

原创 pymongo.errors.ServerSelectionTimeoutError: 172.50.39.45:27017: timed out

因为不在本机上进行操作,因此之前把client改成了连接电脑的ip地址,然后就开始报这个错误,把ip地址改成localhost就可以运行了

2019-03-05 09:36:57 3817 1

原创 pynlpir使用过程中遇到的问题

pynlpir使用过程中遇到的问题:输入“厦门日报”报错the part of speech are not recognized解决方法:在字符串前面加u

2019-01-13 21:27:38 746

全国省级、地市级、县市级行政区划_WGS84.zip

用于地理信息系统的地图制作,其中包括各省的矢量信息,以及其地级市的居民点信息

2019-05-10

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除