毕业设计
进程击序的媛
身体和灵魂,健身与学习,都在路上。
展开
-
对三体进行分词生成词向量
网上下载的三体TXT版本txt文件放在“f:\test5\threebody.txt”中,分词后的文件放在“f:\test5\threebody2.txt”使用jeba分词工具import jiebafilePath = r'f:\test5\threebody.txt'fileSegWordDonePath = r'f:\test5\threebody2.txt'fileTrainRea...原创 2018-05-03 20:53:21 · 996 阅读 · 0 评论 -
ascii,unicode,gbk, utf-8, utf-16等字符编码问题
这是一篇程序员写给程序员的趣味读物。所谓趣味是指可以比较轻松地了解一些原来不清楚的概念,增进知识,类似于打RPG游戏的升级。整理这篇文章的动机是两个问题:问题一:使用Windows记事本的“另存为”,可以在GBK、Unicode、Unicode big endian和UTF-8这几种编码方式间相互转换。同样是txt文件,Windows是怎样识别编码方式的呢?我很早前就发现Unicode、Unico...转载 2018-05-06 14:31:03 · 410 阅读 · 0 评论 -
将所有的字幕文件统一为utf-8格式
一开始是用的他人的代码,但是总会有异常,后来查询编码的知识,一点点的改,自己写了一个代码,倒是没报错转换成功了import codecsimport shutilimport reimport osimport chardetdef convert_encoding(filename): # Backup the origin file. # convert file...原创 2018-05-06 15:17:20 · 4230 阅读 · 1 评论 -
爬虫编码问题 'gbk' codec can't encode character '\xa0' in position 1816: illegal multibyte sequence
def parse_url(self, response): print(remove_tags(response.selector.xpath('//body').extract()[0]))在我用该函数解析爬取到的信息response时候,发现有异常,报错为UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' in ...原创 2018-04-29 11:11:58 · 1955 阅读 · 1 评论