第二章:关键技术介绍

本项目是通过jupyter Notebook来进行设计和实现的

2.1jieba的介绍
2.2numpy的介绍
2.3pandas的介绍
2.4matplotlib的介绍
2.5seaborn的介绍

2.1jieba的介绍

jieba库是Python中重要的第三方中文分词函数库,其原理是利用一个中文分词词库,将带分词的内容和分词词库进行比对,通过图结构和动态规划方法找到最大概率词组,除了分词外,jieba库还提供了增加自定义中文单词的功能。
jieba库支持三种分词模式:
1.精确模式:将句子最精确的切开,适合文本分析。
2.全模式:把句子中所有可以成词的词汇都扫描出来,速度很快,但是不能消除歧义。
3.搜索引擎模式:在精确模式的基础上,对长词再次进行切分,提高召回率,适合用于搜索引擎分词。
jieba库主要提供分词功能,可以辅助自定义分词词典。
jieba库常用的分词函数:
jieba.cut(s) 精确模式,返回一个可迭代的数据类型。
jieba.cut(s,cut_all = True) 全模式,返回文本s中所有可能的单词。
jieba.cut_for_search(s) 搜索引擎模式,适合搜索引擎建立索引的分词结果。
jieba.lcut(s) 精确模式,返回一个列表类型,建议使用此种精确模式。
jieba,luct_for_search(s) 搜索引擎模式,返回一个列表类型,建议使用此种搜索引擎模式。
jieba,add_word(w) 向分词词典中添加新词w
 

2.2numpy的介绍

numpy是一个开源的python科学计算扩展库,主要用来处理任意维度数组和矩阵。
相同的任务,使用numpy比直接用python的基本数据结构更加简单高效。
它的功能:

  • 包含一个强大的N维数组对象Ndarray
  • 广播功能函数
  • 整合C/C++代码的工具
  • 线性代数、傅里叶变换、随机数生成等功能

numpy是scipy,pandas等数据处理或科学计算库的基础

2.3pandas的介绍

        Pandas是提供高性能易用数据类型和分析工具。常使用的导入方式import pandas as pd
pandas基于numpy实现,常与numpy和matplotlib一同使用。

两个数据类型:Series,DataFrame
基于上述数据类型的各类操作,基本操作、运算操作、特征类操作、关联类操作。

numpy:基础数据类型,关注数据的结构表达,维度是数据间的关系。
pandas:扩展数据类型,关注数据的应用表达,数据与索引间关系
        Pandas 是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发team继续开发和维护,属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。 Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。panel data是经济学中关于多维数据集的一个术语,在Pandas中也提供了panel的数据类型。

2.4matplotlib的介绍

Matplotlib是一款可以数据可视化的库。由各种可视化的类构成。
matplotlib.pyplot是绘制各类可视化图形的命令子库。
通常别名为plt 命令如import matplotlib.pyplot as plt

Matplotlib通常和Numpy结合使用。

 Matplotlib是一个python 2D绘图库,它以多种硬拷贝格式和跨平台的交互式环境生成出版物质量数据。  Matplotlib可以在Python脚本中,Python和IPython的使用壳(ALA MATLAB® *或数学®),Web应用程序服务器,和六个图形用户界面工具包。 Matplotlib尝试使容易的事情变得容易而使困难的事情变得可能。 您只需几行代码就可以生成图表,直方图,功率谱,条形图,误差图,散点图等。

2.5seaborn的介绍

  • seaborn是基于 Matplotlib的Python数据可视化库。 它在Matplotlib的基础上,进行了更高级的封装,从而使得绘图更加容易,不需要经过大量的调整,就能使图像变得精致,它提供了一个高级界面,用于绘制引人入胜且内容丰富的统计图形,只是在Matplotlib上进行了更高级的API封装,从而使作图更加容易。

  • seaborn是针对统计绘图的,能满足数据分析90%的绘图需求,需要复杂的自定义图形还需要使用到Matplotlib。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值