自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 python与数据科学

1.数据分析包numpyscipypandasmatplotlibScikit-Learn2.文本处理包NLTKTextBlobPatternGensim推荐的ipython+notebook是啥??3.文本挖掘基本特征:MI值,卡方检验,信息增益,频率,交叉熵文本分类文本聚类情感分析...

2020-09-15 17:37:58 108

原创 python与自然语言处理-读书笔记3

The goal of this chapter is to answer the following questions:1.怎么获取本地和网络文本 How can we write programs to access text from local files and from the web, in order to get hold of an unlimited range of...

2020-04-14 21:37:32 500

原创 python与自然语言处理-读书笔记2

controlif control structurefor loop >>> sent1 = ['Call', 'me', 'Ishmael', '.']>>> for xyzzy in sent1:... if xyzzy.endswith('l'):... print(xyzzy)...CallIshmael&g...

2020-03-30 22:23:48 606

原创 python与自然语言处理1

来源网址本篇-4.3from nltk.book import *搜索文本索引行text1.concordance(“big”)最多展示25个。?如何展示更多??big的其他形式如bigger可否也展示?通配符如何显示相似词语text1.similar(“big”)并不是指相同意思,而是指出现在相同上下文,有点类似于索绪尔还是乔姆斯基说的语言的聚合关系?For...

2020-03-24 21:35:37 535

原创 R语言实战 笔记4 基础统计和图形

概述第二部分关注的是用于获取数据基本信息的图形技术和统计方法。第6 章描述了可视化单个变量分布的方法。对于类别型变量,有条形图、饼图以及比较新的扇形图。对于数值型变量,有直方图、密度图、箱线图、点图和不那么著名的小提琴图(violin plot)。每类图形对于理解单个变量的分布都是有益的。第7 章描述了用于概述单变量和双变量间关系的统计方法。这一章使用了一个完整的数据集,以数值型数据的描述...

2020-01-30 22:25:14 1396

原创 R语言与自然语言处理 中文分词与标注

原文学习链接直接分词cn = “我爱中国”worker() -> wksegment(cn,wk)[1] “我” “爱” “中国”词典查看路径show_dictpath()[1] “C:/Users/comma/Documents/R/win-library/3.6/jiebaRD/dict”对“user.dict.utf8”这个文件进行更改。使用记事本...

2020-01-30 10:49:12 2095 1

原创 R语言实战 笔记3--数据管理

基础创建新变量直接运算是不行的,需要建立数据框,再用transform()装进去。mydata <- data.frame(x1=c(2,2,6,4),x2=c(4,3,1,6))基本思路就是:1建立数据框架,2计算,3把数据放进框架。但是感觉下面这段代码比较罗嗦呢。下面的斜体其实是$的意思。mydatasumx<−mydatasumx <- mydatasum...

2020-01-29 18:58:11 372

原创 R语言实战 笔记2--第三章 图形初阶

attach(mtcars) #绑定plot(wt,mpg)abline(lm(mpg~wt))title(“Regression of MPG on Weight”)detach(mtcars) #解除保存图形的函数:pdf(),还可以使用函数win.metafile()、png()、jpeg()、bmp()、tiff()、xfig()和postscript()创建多个图形并随...

2020-01-27 21:15:03 509

原创 R语言实战 笔记1--读取数据

全书基本思路获取数据(从各种数据源将数据导入程序); 整理数据(编码缺失值、修复或删除错误数据、将变量转换成更方便的格式); 注释数据(以记住每段数据的含义); 总结数据(通过描述性统计量了解数据的概况); 数据可视化(一图胜千言); 数据建模(解释数据间的关系,检验假设); 整理结果(创建具有出版水平的表格和图形)目录在21页读取数据stattransfer](...

2020-01-27 17:17:29 2730

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除