文本处理
sunnychou0330
这个作者很懒,什么都没留下…
展开
-
python numpy 保存文件
#不仅是保存为txt,excel 等,也可以保存为.npy文件,可以保存为相应的数组格式import numpy as npdata = np.loadtxt('a.txt')data = np.loadtxt('a.txt', delimiter=',', skiprows=1)##---(Thu May 23 11:14:00 2019)---import numpy as np...原创 2019-05-23 16:28:17 · 8164 阅读 · 3 评论 -
python处理数据,pandas 处理txt文件
以wordsim240为例目前大多数的数据集以txt文件居多,但是我们在数据处理中,可能最终会在Excel上进行一些分析、制图,当然也可以使用python制图包,也可以做出很精美的结果图。此篇只是简单的读取,文件,保存到Excel中,可以做一些回归分析、相关系数等;txt中的原始数据import pandas as pddata = pd.read_csv('24...原创 2019-05-21 17:54:03 · 13097 阅读 · 1 评论 -
自然语言处理之近义词包 Synonyms
一直想用这些,收藏起来!原文:https://blog.csdn.net/valada/article/details/79909943目前很缺乏质量好的中文近义词库,于是便考虑使用 word2vec 训练一个高质量的同义词库将“非标准表述”映射到“标准表述”,这就是 Synonyms 的起源。在经典的信息检索系统中,相似度的计算是基于匹配的,而且是 Query 经过分词后与文档库的严格的...转载 2018-08-10 14:24:16 · 1940 阅读 · 0 评论 -
文本向量化-计算文本相似的的方法-基于python语言的实现
本节主要讨论三种方法实现中文文本的向量化,编程环境python3.6.TF 词频的方法TFIDF 词频-逆文档频率Word2Vec 第一种TF方式,即是基于词频的方式,举一个最简单的例子:1:今天天气不错!2:今天天气很好。针对英文,我们可以直接跑程序,计算文本向量,英文单词都是以空格分割好的,但是对于中文,我们需要进行如下的几个处理步骤,分词、去停用词(使用在word2vec里,原创 2017-11-23 17:29:08 · 5889 阅读 · 0 评论 -
正则表达式提取新闻发生时间
最近在提取新闻事件的发生时间,现在只是实现了一个最简单的新闻,获取新闻报到时间和正文的时间。方案:把正文中出现的第一个时间作为事情的发生时间,并按照统一的格式进行输出xxxx-xx-xx 某年某月某日这种格式。 在新闻中,由于每一个网站发布方不同,会存在报到时间不一致,以及正文内容格式不一致,在这个时候,我们需要考虑各种情况,但在此处,我们考虑的较简单,后面会在继续优化这个格式的提原创 2017-09-12 10:46:26 · 2710 阅读 · 0 评论 -
ValueError: too many values to unpack (expected 2)
a = {'Time': '2017-09-19', 'News': '楚了何人之手。今日,楚天都市报'}for k,v in a: print('%s %s'%(k,v))返回了下面的错误:ValueError Traceback (most recent call last)<ipython-input-12-549d98原创 2017-09-20 12:49:29 · 95860 阅读 · 0 评论 -
python3中替换python2中cmp函数的新函数分析(lt、le、eq、ne、ge、gt)
http://blog.csdn.net/sushengmiyan/article/details/11332589 本文地 在python2中我们经常会使用cmp函数来比较一些东西,但是在python3中,你再来使用这个函数的时候,发现就报错了,提示找不到这个函数,这是为啥呢?嗯,新版的python已经舍弃之。 在python3中使用时报错信息如下:Syntax Error: if cmp(转载 2017-09-13 20:01:46 · 970 阅读 · 0 评论 -
ERROR 1366 (HY000): Incorrect string value: '\xE5\xB8\x82' for column 'address' at row 1
在写入数据库时,一直出现这种错误,导致写入数据库的数据都是一连串的问号,百度一下,发现是编码问题,在使用pycharm上的pymql,我用起来不是太方便,使用pycharm我也不太清楚在哪里修改编码问题,我觉得应该是可以修改的这个问题,但是使用 Navicat是一个太爽的MySQL可视化工具,我们选择我们的数据库,右键设计表,在设计表情况,修改字符集即可解决这些编码问题 根据字符集的下拉框,可以选原创 2017-09-13 13:47:11 · 637 阅读 · 0 评论 -
提取xml格式新闻内容
最开始解决方案有两种: 1) 使用正则表达式,匹配xml格式中的所有中文字符。 2) 使用BeautifulSoup的get_text()方法提取新闻内容 第一中方法,在进行中,后面更新 本文只展示第二种方法,因为无意之间发现了这个方法,简直不要太方便。 以下是初始文本:<?xml version="1.0" encoding="UTF-8"?><Body> <Title>成都网原创 2017-09-04 11:37:58 · 842 阅读 · 0 评论 -
爬虫编码问题
在获取网页时会遇到各种各样的编码问题,我们有不同的编码方式,但是在使用BeautifulSoup时,他有自动检测编码的功能,但是这样遍历一遍,知道编码也是一个很慢的过程。而且依然有可能出错。因此我们可以在实例化BeautifulSoup时,加上编码规则,这样就可避免错误。 首先我们先查看爬虫的页面的编码方式,使用下列代码即可获得url = 'http://www.baidu.com'>>> re原创 2017-08-01 20:56:35 · 420 阅读 · 0 评论