日常学习小点
文章平均质量分 65
水...琥珀
数据挖掘,自然语言处理,如果恰巧你也是,同行!
展开
-
python模块:bisect 模块 random模块
今天入学第一天学习或者说巩固到了两个python的模块bisect 模块random模块一、bisect模块简介Python 有一个 bisect 模块,用于维护有序列表。bisect 模块实现了一个算法用于插入元素到有序列表。Bisect 是二分法的意思,这里使用二分法来排序,它会将一个元素插入到一个有序列表的合适位置,这使得不需要每次调用 sort 的方式维护有序列表。二、bisect模块重要...原创 2018-02-27 15:39:01 · 343 阅读 · 0 评论 -
python 日常问题 ReadTimeoutError ( pip 指定 安装源方法安装)
pip install pyecharts有几个需要安装的,出现D:\local\Anaconda3>pip install pyechartsCollecting pyecharts Using cached https://files.pythonhosted.org/packages/4b/20/389f802f29e95de41d63fa68ab72fed8c8afe8...原创 2018-08-04 22:49:27 · 4848 阅读 · 3 评论 -
自然语言处理 其他
ICTCLAS中科院怎么用pythonPython调用PYNIPIR(ICTCLAS)进行中文分词这里写链接内容HanLP训练命名实体识别模型目前HanLP中的命名实体识别主要通过HMM-角色标注模型来实现,由于这是一整套理论,所以HanLP实现了通用的抽象工具,并且通过其子类实现了人名、地名、机构名的模型训练。本文将介绍通用的抽象工具,以及如何继承该工具实现常见命名实体识别模...原创 2018-08-09 17:03:41 · 198 阅读 · 0 评论 -
中文分词工具比较 6大中文分词器测试(哈工大LTP、中科院计算所NLPIR、清华大学THULAC和jieba、FoolNLTK、HanLP)
#!/ Mypython# -*- coding: utf-8 -*-# @Time : 2018/8/5 22:19# @Author : LinYimeng# @File : fenci_ceshi.py# @Software: PyCharmimport timetestCases=["结婚的和尚未结婚的确实在干扰分词啊&a原创 2018-08-09 17:08:41 · 32025 阅读 · 12 评论 -
python 安装.whl、egg、zip、tar.gz安装包
安装地址简单教程链接python 第三方包的安装位置先找到python 或者Anaconda3的库的安装地址。第三方包的存放路径 :安装python的参考:D:\Python 3.5\Tools\scripts安装Anaconda3的参考:D:\Anaconda3\lib\site-packages 到达指定位置注意将安装包下载,存放在 Python第三方包的路径...原创 2018-04-18 17:09:39 · 18935 阅读 · 0 评论 -
分词工具 结巴个人词典构造
结巴结巴JIEBA项目github地址训练数据载入词典开发者可以指定自己自定义的词典,以便包含 jieba 词库里没有的词。虽然 jieba 有新词识别能力,但是自行添加新词可以保证更高的正确率 用法: jieba.load_userdict(file_name) # file_name 为文件类对象或自定义词典的路径 词典格式和 dict.txt 一样,一个词...原创 2018-08-05 22:40:19 · 5742 阅读 · 0 评论 -
python 分词器比较
个人接触的分词器jieba“结巴”中文分词:做最好的 Python 中文分词组件https://github.com/fxsjy/jieba清华大学THULAC:一个高效的中文词法分析工具包 https://github.com/thunlp/THULAC-Python FoolNLTK可能不是最快的开源中文分词,但很可能是最准的开源中文分词 https://github...原创 2018-08-06 11:22:33 · 1546 阅读 · 0 评论 -
python 分词器使用
个人接触的分词器 安装 调用 jieba“结巴”中文分词:做最好的 Python 中文分词组件https://github.com/fxsjy/jieba 清华大学THULAC:一个高效的中文词法分析工具包 https://github.com/thunlp/THULAC-Python FoolNLTK可能不是最快的开源中文分词,但很可能是最准的开源中文分词 https://g...原创 2018-08-08 11:02:32 · 2210 阅读 · 0 评论 -
python小点dian儿 读取特殊存储数据
def read_data(path): y = [] row = [] col = [] values = [] r = 0 # 首行第一列为y,其他为x for d in open(path): d = d.strip().split() # 以空格分开 y.append(int(d[0])...翻译 2018-10-05 22:16:45 · 282 阅读 · 0 评论 -
使用webdriver打开本地浏览器--python版
webdriver有三种1、firefox浏览器(不需要下载驱动,原生支持) 2.chromedriver 3.IE的驱动IEdriverSelenium调用webdriver.chrome()出错webdirver.chorme()时,却提示PATH路径中没有chromedriver。 意识到自己没有这个驱动,一.下载很多前辈会链接下载地址,不知道是需要爬墙还是链接地...原创 2018-07-30 20:24:28 · 4073 阅读 · 0 评论 -
python 学习 json 大汇总
会涉及的json内容点:存取JSON文件json和python对象转换JSON的“引号”中文编码json 会被忽视的参数和字典的关系常见报错如果你要处理的是文件而不是字符串,你可以使用 json.dump() 和 json.load() 来编码和解码JSON数据。例如:存取JSON文件# 写入 JSON 数据with open('data....原创 2018-08-03 21:39:20 · 332 阅读 · 0 评论 -
python3爬虫问题,API调用出现282004等错误
下面是一些错误: "error_code": 282004, "error_msg": "invalid parameter(s)",a bytes-like object is required, not 'str'POST data should be bytes or an iterable of bytesContent-Length should be specified for ...原创 2018-04-09 17:50:34 · 1779 阅读 · 0 评论 -
python2转python3(新)
python2代码转换python3(新) Python 3自带了一个叫做2to3.py,这个脚本会将你的Python 2程序源文件作为输入,然后自动将其转换到Python 3的形式,可进行整个文件夹或者是单个代码的python2代码的转换很是方便。 第一步:检查是否安装。安装。 第二步:找到,2to3.py (或2to3-script.py)...原创 2018-03-28 21:45:50 · 12979 阅读 · 1 评论 -
获取网页html
所需求证链接: https://baike.baidu.com/item/%E4%BC%A0%E9%80%81%E9%97%A8%E9%AA%91%E5%A3%AB/19834187?fr=aladdin进入存放文件夹 使用curl 工具,输入curl"url">mingzi.html例如:C:\Users\Administrator\Desktop>cd tes...原创 2018-05-18 11:38:41 · 1113 阅读 · 0 评论 -
python2 编码
查看系统编码的具体转换状况:# coding=utf-8import sysprint ('origin_encoding = {}'.format(sys.getdefaultencoding()))reload(sys)sys.setdefaultencoding('utf-8')print ('new_encoding = {}\n'.format(sys.getdefa...转载 2018-05-29 09:13:58 · 132 阅读 · 0 评论 -
Python 学习 scikit-learn 预测准确率计算
1.评价 x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=1, train_size=0.6) # 分类器 clf = svm.SVC(C=0.1, kernel='linear', decision_function_shape='ovr') # clf = sv...原创 2018-07-24 09:15:57 · 18391 阅读 · 0 评论 -
django setting数据库设置(更改mysql),键的含义说明
在项目的 settings.py 文件中找到 DATABASES 配置项,将其信息修改为:DATABASES = { # 'default': { # 'ENGINE': 'django.db.backends.sqlite3', # 'NAME': os.path.join(BASE_DIR, 'db.sqlite3'), 'default':...原创 2018-07-25 17:47:41 · 3713 阅读 · 1 评论 -
CSDN Markdown编辑下插入公式
使用$将公式左右包括起来,键入的式子将以公式格式显示$公式$ 句中插入,这是一个演示y^\hat{y}y^$换行居中插入换行居中插入换行居中插入$这是一个演示y^\hat{y}y^原始语法如下:$公式$ 句中插入,这是一个演示$\hat{y}$ $$换行居中插入$$ 这是一个演示$$\hat{y}$$ ...原创 2019-03-28 18:14:30 · 538 阅读 · 0 评论