自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

wangsiji_buaa的博客

人工智能,我们一起进步

  • 博客(51)
  • 收藏
  • 关注

原创 《用Python进行自然语言处理》第 11 章 语言数据管理

1. 我们如何设计一种新的语言资源,并确保它的覆盖面、平衡以及支持广泛用途的文 档?2. 现有数据对某些分析工具格式不兼容,我们如何才能将其转换成合适的格式?3. 有什么好的方法来记录我们已经创建的资源的存在,让其他人可以很容易地找到它?11.1 语料库结构:一个案例研究TIMIT 语料库是第一个广泛发布的已标注语音数据库,它有一个特别清晰的组织结构。 TIMIT 由一个包括克萨斯仪器公司和麻省理...

2018-04-29 21:42:29 1755

原创 快速排序(二)

代码:# 快速排序# 三行代码实现快速排序# 第一行代码:定义函数和参数def Quick_sort(lists): # 第二行代码:判断列表长度是否小于1,如果小于等于1,直接返回列表 if len(lists) <= 1: return lists # 第三行代码:返回递归函数拼接的列表 # 比列表第一个元素小的所有元素列表递归调用 # 第...

2018-04-29 17:38:25 519

原创 《数学之美》第5章 隐含马尔可夫模型

1 通信模型    通信的本质就是一个编解码和传输的过程。    当自然语言处理的问题回归到通信系统中的解码问题时,很多难题就迎刃而解了。    雅格布森通信六要素是:发送者(信息源),信道,接受者,信息, 上下文和编码。    通信的解码就是根据接受到的信号还原出发送到信号。    几乎所有的自然语言处理的问题都可以等价成通信的解码问题。    只需要从所有的源信息中找到最可能产生出观测信号的那...

2018-04-26 12:17:18 790

原创 选择排序

# 选择排序# 平均时间复杂度 O(n^2)# 最好情况 O(n^2)# 最坏情况 O(n^2)# 空间复杂度 O(1)# 算法描述:# (1) 初始状态:无序区为R[1..n],有序区为空;# (2) 第i趟排序(i=1,2,3…n-1)开始时,当前有序区和无序区分别为R[1..i-1]和R(i..n)。# 该趟排...

2018-04-25 07:58:49 1186

原创 Python 之 matplotlib (十六)Animation动画

代码:import matplotlib.pyplot as pltimport numpy as npfrom matplotlib import animationfig, ax = plt.subplots()x = np.arange(0, 2 * np.pi, 0.01)line, = ax.plot(x, np.sin(x))def animate(i): ...

2018-04-25 07:58:41 22029 4

原创 Python 之 matplotlib (十五)主次坐标轴

代码:import matplotlib.pyplot as pltimport numpy as npx = np.arange(0, 10, 0.1)y1 = 0.05 * x ** 2y2 = -1 * y1fig, ax1 = plt.subplots()ax2 = ax1.twinx()ax1.plot(x, y1, 'g-')ax2.plot(x, y2, 'b-'...

2018-04-25 07:58:14 8991 1

原创 Python 之 matplotlib (十四)图中图

代码:import matplotlib.pyplot as pltfig = plt.figure()x = [1, 2, 3, 4, 5, 6, 7]y = [1, 3, 4, 2, 5, 8, 6]left, bottom, width, height = 0.1, 0.1, 0.8, 0.8ax1 = fig.add_axes([left, bottom, width, he...

2018-04-25 07:58:05 2886

原创 Python 之 matplotlib (十三) subplot分格显示

代码:import matplotlib.pyplot as pltimport matplotlib.gridspec as gridspec# method1:subplot2gridplt.figure()ax1 = plt.subplot2grid((3, 3), (0, 0), colspan=3, rowspan=1)ax1.plot([1, 2], [1, 2])ax1...

2018-04-25 07:57:51 2390

原创 Python 之 matplotlib (十二) subplot

代码:import matplotlib.pyplot as plt# 多合一显示# 模式一plt.figure(1)plt.subplot(2, 2, 1)plt.plot([0, 1], [0, 1])plt.subplot(2, 2, 2)plt.plot([0, 1], [0, 2])plt.subplot(2, 2, 3)plt.plot([0, 1], [0, ...

2018-04-25 07:57:44 1945

原创 Python 之 matplotlib (十一) 3D

代码:import matplotlib.pyplot as pltimport numpy as npfrom mpl_toolkits.mplot3d import Axes3Dfig = plt.figure()ax = Axes3D(fig)# X,Y valueX = np.arange(-4, 4, 0.25)Y = np.arange(-4, 4, 0.25)X,...

2018-04-25 07:57:33 1472

原创 Python 之 matplotlib (十)Image

代码:import matplotlib.pyplot as pltimport numpy as np# image dataa = np.array([0.313660827978, 0.365348418405, 0.423733120134, 0.365348418405, 0.439599930621, 0.525083754405, ...

2018-04-25 07:57:19 1412

原创 Python 之 matplotlib (九)contours等高线

代码:import matplotlib.pyplot as pltimport numpy as npdef f(x, y): return (1 - x / 2 + X ** 3) * np.exp(-x ** 2 - y ** 2)n = 256x = np.linspace(-3, 3, n)y = np.linspace(-3, 3, n)X, Y = np....

2018-04-25 07:57:11 2081

原创 Python 之 matplotlib (八)Bar

代码:import matplotlib.pyplot as pltimport numpy as npn = 12X = np.arange(n)Y1 = (1 - X / float(n)) * np.random.uniform(0.5, 1.0, n)Y2 = (1 - X / float(n)) * np.random.uniform(0.5, 1.0, n)plt.bar...

2018-04-25 07:56:53 5421

原创 Python 之 matplotlib (七)Scatter

代码:import matplotlib.pyplot as pltimport numpy as npn = 1024X = np.random.normal(0, 1, n) # 平均数0,方差1Y = np.random.normal(0, 1, n)T = np.arctan2(Y, X) # for color valueplt.scatter(X, Y, s=75, ...

2018-04-24 09:13:30 881

原创 Python 之 matplotlib (六)tick能见度

代码:import matplotlib.pyplot as pltimport numpy as npx = np.linspace(-3, 3, 50)y = 0.1 * xplt.figure()plt.plot(x, y, linewidth=10, zorder=1)plt.ylim(-2, 2)ax = plt.gca()ax.spines['right'].set...

2018-04-24 09:13:13 1363

原创 Python 之 matplotlib (五)Annotation注解

代码:import matplotlib.pyplot as pltimport numpy as npx = np.linspace(-3, 3, 50)y = 2 * x + 1plt.figure(num=1, figsize=(8, 5))plt.plot(x, y)ax = plt.gca()ax.spines['right'].set_color('none')ax...

2018-04-24 09:12:55 1854

原创 Python 之 Matplotlib (四)图例

代码:import matplotlib.pyplot as pltimport numpy as npx = np.linspace(-3, 3, 50)y1 = 2 * x + 1y2 = x ** 2plt.figure()# 设置坐标轴取值范围plt.xlim((-1, 2))plt.ylim((-2, 3))# 标签plt.xlabel('I am X')plt...

2018-04-24 09:12:40 1093

原创 Python 之 matplotlib (三)坐标轴

代码:import matplotlib.pyplot as pltimport numpy as npx = np.linspace(-3, 3, 50)y1 = 2 * x + 1y2 = x ** 2plt.figure()plt.plot(x, y2)plt.plot(x, y1, color='red', linewidth=1.0, linestyle='--')# ...

2018-04-24 09:12:12 1727

原创 Python 之 Matplotlib (二)figure

代码:import matplotlib.pyplot as pltimport numpy as npx = np.linspace(-3, 3, 50)y1 = 2 * x + 1y2 = x ** 2# figure oneplt.figure()plt.plot(x, y1)# figure twoplt.figure(num=3, figsize=(8, 5))pl...

2018-04-24 09:11:54 1266

原创 Python 之 Matplotlib (一)基本用法

代码:import matplotlib.pyplot as pltimport numpy as npx = np.linspace(0, 1, 20)y = x ** 2plt.plot(x, y)plt.show()运行结果:

2018-04-24 09:11:42 538

原创 《数学之美》第4章 谈谈分词

1 中文分词方法的演变    可以利用语言模型进行自然语言处理,而这些语言模型是建立在词的基础上的,因为词是表达语义的最小单位。        分词方法:查字典,北航梁南元教授提出。可以解决七八成以上的问题。    20世纪80年代,哈工大王晓龙博士将查字典理论化,发展成最少词数的分词理论,即一句话应该分成数量最少的词串。        不足之处:                遇到有二义性的分割...

2018-04-24 09:11:06 712

原创 Python 之 Pandas (八)图像

代码:import pandas as pdimport numpy as npimport matplotlib.pyplot as plt# plot data# Seriesdata = pd.Series(np.random.randn(1000), index=np.arange(1000))#data = data.cumsum() # 累加data.plot()p...

2018-04-24 09:10:38 1036

原创 Python 之 Pandas (七)merge合并

代码:import pandas as pd# merging two df by key/keys# simple exampleleft = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'], 'A': ['A0', 'A1', 'A2', 'A3'], 'B'...

2018-04-24 09:10:01 3071

原创 Python 之 Pandas (六)合并

代码:import pandas as pdimport numpy as np# concatenatingdf1 = pd.DataFrame(np.ones((3, 4)) * 0, columns=['a', 'b', 'c', 'd'])df2 = pd.DataFrame(np.ones((3, 4)) * 1, columns=['a', 'b', 'c', 'd'])d...

2018-04-23 18:23:00 567

原创 python 之 Pandas (五)导入导出

代码:import pandas as pd# 读取data = pd.read_csv('Students1.csv')print(data)# 保存data.to_pickle('students.pickle')运行结果: Student ID name age gender0 1001 bob 22 Female1 10...

2018-04-23 18:15:38 1245

原创 Python 之 Pandas (四)处理丢失数据

代码:import numpy as npimport pandas as pddates = pd.date_range('20130101', periods=6)df = pd.DataFrame(np.arange(24).reshape((6, 4)), index=dates, columns=['A', 'B', 'C', 'D'])df.iloc[0, 1] = np.n...

2018-04-23 18:12:02 900

原创 Python 之 Pandas (三)选择数据

代码:import numpy as npimport pandas as pddates = pd.date_range('20130101', periods=6)df = pd.DataFrame(np.arange(24).reshape((6, 4)), index=dates, columns=['A', 'B', 'C', 'D'])print(df)df.iloc[2,...

2018-04-23 18:05:01 764

原创 Python 之 Pandas (二)选择数据

代码:import numpy as npimport pandas as pddates = pd.date_range('20130101', periods=6)df = pd.DataFrame(np.arange(24).reshape((6, 4)), index=dates, columns=['A', 'B', 'C', 'D'])print(df)# 输出列prin...

2018-04-23 17:56:14 609

原创 Python 之 Pandas (一)介绍

代码:import pandas as pdimport numpy as npprint("生成序列")s = pd.Series([1, 3, 6, np.nan, 44, 1])print(s)dates = pd.date_range('20160101', periods=6)print(dates)运行结果:生成序列0 1.01 3.02 6...

2018-04-23 13:39:38 601

原创 Python 之 Numpy (七)copy

代码:import numpy as np# 关联a = np.arange(4)print(a)b = ac = ad = ba[0] = 11print(a)print(b)print(b is a)print(d is a)d[1] = 12print(d)print(d is a)运行结果:[0 1 2 3][11 1 2 3][11 1 2 ...

2018-04-23 09:56:49 441

原创 Python 之 Numpy (六)分割

代码:import numpy as npA = np.arange(12).reshape((3, 4))print(A)# 纵向分割print(np.split(A, 2, axis=1))print(np.hsplit(A, 2))# 横向分割print(np.split(A, 3, axis=0))print(np.vsplit(A, 3))# 不等量分割print(...

2018-04-23 09:53:42 1094

原创 Python 之 Numpy (五)合并

代码:import numpy as npA = np.array([1, 1, 1]) # 序列B = np.array([2, 2, 2])# 上下合并print("上下合并")C = np.vstack((A, B))print(A.shape, C.shape)print(C)# 左右合并print("左右合并")D = np.hstack((A, B))prin...

2018-04-23 09:50:27 1125

原创 Python 之 Numpy (四)索引

代码:import numpy as npA = np.arange(3, 15).reshape((3, 4))print(A)# 索引到某一行print(A[2])# 索引某个元素print(A[1][1])print(A[1, 1])print(A[1, :]) # 第一行所有元素print(A[:, 1]) # 第一列的所有元素运行结果:[[ 3 4 5 6]...

2018-04-23 09:44:12 764

原创 《数学之美》第3章 统计语言模型

1 用数学的方法描述语言规律    统计语言模型的产生的初衷是为了解决语音识别问题。    贾里尼克:一个句子是否合理,就看它的可能性大小如何。至于可能性就用概率来衡量。   马尔可夫:假设任意一个词出现的概率只同它前面的词有关。2 统计语言模型的工程诀窍 2.1 高阶语言模型        N元模型:N - 1阶马尔可夫假设,假设文本中每个词和前面N-1个词有关,而与更前面的词无关。      ...

2018-04-22 22:36:12 1052 1

原创 Python 之 Numpy (三)运算

代码:import numpy as np# 加减a = np.array([10, 20, 30, 40])b = np.arange(4)c = a - bprint(a, b)print(c)运行结果:[10 20 30 40] [0 1 2 3][10 19 28 37]代码:# 三角函数a = np.array([10, 20, 30, 40])b = 10 * np...

2018-04-22 21:17:54 1234

原创 Python 之 Numpy (二)array

代码:# 类型# 一维矩阵a = np.array([2, 23, 4], dtype=np.int)print(a.dtype)a = np.array([2, 23, 4], dtype=np.float)print(a.dtype)print(a)# 二维a = np.array([[1, 2, 3], [4, 5, 6]])print(a)运行...

2018-04-22 21:08:48 1372

原创 Python 之 Numpy (一)属性

代码:import numpy as nparray = np.array([[1, 2, 3], [2, 3, 4]]) # 数组print(array)print('number of dim:', array.ndim) # 数组维数print('shape:', array.shape) # 形状print('size', array....

2018-04-22 21:01:17 1266

原创 《用Python进行自然语言处理》第 9 章 建立基于特征的文法

1. 我们怎样用特征扩展上下文无关文法框架,以获得更细粒度的对文法类别和产生式的控制?2. 特征结构的主要形式化属性是什么,我们如何使用它们来计算?3. 我们现在用基于特征的文法能捕捉到什么语言模式和文法结构9.1 文法特征#描述了如何通过检测文本的特征建立分类器。#那些特征可能非常简单, 如提取一个单词的最后一个字母,或者更复杂一点儿,如分类器自己预测的词性标签。#在本 章中,我们将探讨在建...

2018-04-22 12:02:44 1582

原创 希尔排序

#希尔排序# 平均时间复杂度 O(n^1.3)# 最好情况 O(n)# 最坏情况 O(n^2)# 空间复杂度 O(1)# 算法描述:# (1) 选择一个增量序列t1,t2,…,tk,其中ti>tj,tk=1;# (2) 按增量序列个数k,对序列进行k 趟排序;# (3) 每趟排序,根据对应的增量ti,将待排序列分割成若...

2018-04-19 08:48:48 1620

原创 插入排序

# 插入排序# 平均时间复杂度 O(n^2)# 最好情况 O(n)# 最坏情况 O(n^2)# 空间复杂度 O(1)# 算法描述:# (1) 从第一个元素开始,该元素可以认为已经被排序;# (2) 取出下一个元素,在已经排序的元素序列中从后向前扫描;# (3) 如果该元素(已排序)大于新元素,将该元素移到下一位置;# (4)...

2018-04-18 13:29:27 1773

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除