自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

wangsiji_buaa的博客

人工智能,我们一起进步

  • 博客(60)
  • 收藏
  • 关注

原创 《数学之美》第31章 大数据的威力--谈谈数据的重要性

1 数据的重要性2 数据的统计和信息技术3 为什么需要大数据    首先,只有当一些随机事件的组合一同出现了很多次以后,才能得到有意义的统计规律;    其次,大数据的采集过程是一个自然过程,有利于消除主观性的偏差;    最后,它可能是解决IT行业之外的一些难题的钥匙。...

2018-05-17 16:33:06 855

原创 《数学之美》第30章 Google大脑和人工神经网络

1  人工神经网络    人工神经网络是一个分层的有向图,第一层接收输入的信息,也称为输入层。第二层的节点照此将数值向后面传递,直到第三层节点,如此一层层传递,直到最后一层,最后一层又称为输出层。2 训练神经网络    人工神经网络分为有监督的训练和无监督的训练两种。    有了训练数据,定义一个成本函数C,然后按照梯度下降法找到让成本达到最小值的那组参数。3 人工神经网络与贝叶斯函数的关系   ...

2018-05-17 16:26:49 977

原创 《数学之美》第29章 各个击破算法和Google云计算的基础

    云计算的关键之一是,如何把一个非常大的计算问题,自动分解到许多计算能力不是很强大的计算机上,共同完成。    1 分治算法的原理        将一个复杂的问题,分成若干个简单的字问题进行解决。然后,对子问题的结果进行合并。得到原有问题的解。    2 从分治算法到MapReduce         将一个大任务拆分成小的子问题,并且完成子问题任务的计算,这个过程叫做Map,将中间结果合并...

2018-05-17 15:24:09 329

原创 《数学之美》第28章 逻辑回归和搜索广告

1 搜索广告的发展    搜索广告基本上走过了三个阶段。        第一阶段是以早期Overture和百度的广告系统为代表,按广告主出价高低来排名的竞价排名广告。        第二阶段雅虎和百度推出的“Panama系统”和“凤巢系统”。        第三阶段是进一步的全局优化。    预测点击率,最好的办法就是根据以往经验值来预测。实际情况远没有那么简单。        首先,这种办法对于...

2018-05-17 13:25:58 438

原创 《数学之美》第27章 期望最大化算法

1 文本的自收敛分类    两种文本分类算法,即利用事先设定好的类别对新的文本进行分类,以及自底向上地将文本两两比较进行聚类的方法。这两种方法,多少都有一些局限性,比如前一种方法需要有事先设定好的类别和文本中心,后一种方法计算时间比较长。    期望最大化算法:        1. 随机挑选K个点,作为起始的中心。        2. 计算所有点到这些聚类中心到距离,将这些点归到最近的一类中。  ...

2018-05-17 13:12:01 455

原创 《数学之美》第26章 维特比和他的维特比算法

1 维特比算法    维特比算法是一个特殊但应用最广的动态规划算法。利用动态规划,可以解决任何一个图中的最短路径问题。而维特比算法是针对一个特殊的图--篱笆网络(Lattice)的有向图最短路径问题而提出的。它之所以重要,是因为凡事使用隐含马尔可夫模型描述的问题都可以用它来解码,包括今天的数字通信、语音识别、机器翻译、拼音转汉字、分词等。2 CDMA技术--3G移动通信的基础    扩频传输和固定...

2018-05-17 09:17:43 494

原创 《数学之美》第25章 条件随机场、文法分析及其他

1 文法分析--计算机算法的演变    自然语言的句法分析(Sentence Parsing)一般是指根据文法对一个句子进行分析,建立这个句子的语法树,即文法分析(Syntactic Parsing),有时也是指对一个句子中各成分的语义进行分析,得到对这个句子语义的一种描述(比如一种嵌套的框结构,或者语义树),即语义分析(Semantic Parsing)。    布朗大学计算机系的计算语言学家尤...

2018-05-17 09:06:00 474

原创 《数学之美》第24章 马尔可夫链的扩展--贝叶斯网络

1 贝叶斯网络2 贝叶斯网络在词分类中的应用3 贝叶斯网络的训练

2018-05-16 17:16:52 1005

原创 《数学之美》第23章 布隆过滤器

1 布隆过滤器的原理2 布隆过滤器的误识别问题

2018-05-16 17:06:34 398

原创 关于MNIST数据集的处理

代码:import tensorflow as tf# 导入 MNIST 数据from tensorflow.examples.tutorials.mnist import input_datamnist = input_data.read_data_sets("./MNIST_data/", one_hot=True)运行结果:Extracting ./MNIST_data/train-i...

2018-05-16 09:57:22 4144 1

原创 《数学之美》第22章 自然语言处理的教父马库斯和他的优秀弟子们

1 教父马库斯2 从宾夕法尼亚大学走出的精英们

2018-05-14 15:53:41 410

原创 《数学之美》第21章 拼音输入法的数学原理

1 输入法和编码2 输入一个汉子需要敲多少个键--谈谈香农第一原理3 拼音转汉子的算法4 个性化的语言模型

2018-05-14 15:28:01 696

原创 Tensorflow— name/variable_scope

代码:import tensorflow as tf# tf.name_scope 主要结合 tf.Variable() 来使用,方便参数命名管理。# 创建一个命名空间with tf.name_scope("conv1"): weights1 = tf.Variable([1.0,2.0], name='weights') bias1 = tf.Variable([0.1]...

2018-05-14 09:42:37 137

原创 《数学之美》第20章 不要把鸡蛋都放到一个篮子里--谈谈最大熵模型

1 最大熵原来和最大熵模型2 最大熵模型的训练

2018-05-14 08:49:44 613

原创 《数学之美》第19章 谈谈数学模型的重要性

正确

2018-05-14 08:37:18 657

原创 《数学之美》第18章 闪光的不一定是金子--谈谈搜索引擎反作弊问题和搜索结果的权威性问题

1 搜索引擎的反作弊2 搜索结果的权威性

2018-05-14 08:32:26 400

原创 Tensorflow— word2vec

代码:# 导入包import tensorflow as tf# encoding=utf8 from __future__ import absolute_importfrom __future__ import divisionfrom __future__ import print_functionimport collectionsimport mathimport o...

2018-05-12 16:38:20 303

原创 激活函数

激活函数是用来加入非线性因素的,解决线性模型所不能解决的问题。1 sigmoid函数    函数公式:    缺陷:当输入稍微远离了坐标原点,函数的梯度就变得很小了,几乎为零(软饱和激活函数)。                在反向传播过程中,sigmoid向下传导的梯度包含一个激活函数导数的因子,一旦落入饱和区,导数为0,导致了向底层传播的梯度非常小,称为梯度消失。               ...

2018-05-12 13:37:31 418

原创 leetcode--Two Sum(2)

代码:"""Given an array of integers, return indices of the two numbers such that they add up to a specific target.You may assume that each input would have exactly one solution, and you may not use the...

2018-05-12 08:28:03 384

原创 《数学之美》第17章 由电视剧《暗算》所想到的—谈谈密码学的数学原理

1 密码学的自发时代2 信息论时代的密码学

2018-05-11 15:49:24 1214

原创 《数学之美》第16章 信息指纹及其应用

1 信息指纹2 信息指纹的用途3 信息指纹的重复性和相似哈希

2018-05-11 15:49:21 1806

原创 文本分类

代码:from gensim import corpora, models# 载入字典dictionary = corpora.Dictionary.load("corpus.dict")f = open("prepare_corpus.txt", "rb")corpusX, corpusY = [], []for line in f: words = line.decod...

2018-05-11 12:41:44 1104

原创 建立字典

代码:# 分类# 社会 国际 体育 科技 。。。# 建立一个字典(词库)以备特征的提取import json from bs4 import BeautifulSoupimport jiebaimport jieba.posseg as pseg# 读取json文件input_file = "new_items.json"f = open(input_file, 'rb')...

2018-05-11 12:35:32 2151

原创 《数学之美》第15章 矩阵运算和文本处理中的两个分类问题

1 文本和词汇的矩阵2 奇异值分解的方法和应用场景

2018-05-10 15:58:35 1628 4

原创 从json到抽取关键词

代码:import json from bs4 import BeautifulSoupimport jiebaimport jieba.analyse# 读取json文件第一行的内容f = open("items.json")# 读取第一行dic = json.loads(next(f))content = dic["content"]print(content)运行结果...

2018-05-10 11:51:49 2154

原创 jieba之sedict(自定义字典)

代码:import jiebastring = "李小福是创新办主任也是云计算方面的专家"# 精确模式分词cut_result = jieba.cut(string)print("===" * 20)print("/".join(cut_result))# 创新办没有识别出来# 用自定义词典来定义创新办# 创新办 3 ijieba.load_userdict("userdi...

2018-05-10 10:40:24 11112

原创 jieba之segment

代码:import jiebasentence = "我来到清华大学"# 从分词粒度上来讲,全模式 > 搜索模式 > 精确模式# 精确模式seg_list = jieba.cut(sentence)#jieba的分词结果是产生一个生成器print("===" * 20)print(seg_list)#如何打印生成器,用分隔符去拼接print("===" * 2...

2018-05-10 10:08:20 1255

原创 Json

代码:import json# 对Json解码test = json.loads('["foo", {"bar":["baz", null, 1.0, 2]}]') print("===" * 20)print(test)print("===" * 20)print(type(test))dict = '{"foo":"bar", "jso

2018-05-10 09:51:55 736

原创 BeautifulSoup

代码:from bs4 import BeautifulSoup#一个html格式的内容doc = ['<html><head><title>Page title</title></head>', '<body><p id="firstpara" align="center&quo

2018-05-09 21:47:59 873

原创 时间戳

代码:import time # 将时间转换为时间戳dt = "2018年5月9日 20:12"# 先将时间转换为时间数组timeArray = time.strptime(dt, "%Y年%m月%d日 %H:%M")print("时间数组:")print(timeArray)# 然后将时间数组转换为时间戳timestamp = time.mktime(timeArray...

2018-05-09 20:33:13 1642

原创 requests抓取以及Xpath解析

代码:# requests抓取import requests# 新浪新闻的一篇新闻的urlurl = 'http://news.sina.com.cn/s/2018-05-09/doc-ihaichqz1009657.shtml'res = requests.get(url)# 查看编码方式enconding = requests.utils.get_encodings_fr...

2018-05-09 20:30:54 12818 2

原创 《数学之美》第14章 余弦定理和新闻的分类

1 新闻的特征向量2 向量矩阵的度量3 计算余弦向量的技巧

2018-05-08 17:13:03 1605

原创 《数学之美》第13章 Google AK-47的设计者—阿米特.辛格博士

Google

2018-05-08 16:07:39 1445

原创 《数学之美》第12章 有限状态机—地图与本地搜索的核心技术

    智能手机的定位和导航功能,其实只有三项关键技术:        第一,利用卫星定位        第二,地址的识别        第三,根据用户输入的起点和终点,在地图上规划最短路线或者最快路线1 地址分析和有限状态机    地址的识别和分析是本地搜索必不可少的技术。    地址的文法是上下文有关文法中相对简单的一种,因此有许多识别和分析的方法,但最有效的是有限状态机。    有限状态机是...

2018-05-08 12:49:08 1286

原创 Tensorflow— 使用inception-v3做各种图像的识别

代码:import tensorflow as tfimport osimport numpy as npimport refrom PIL import Imageimport matplotlib.pyplot as plt代码:class NodeLookup(object): def __init__(self): label_lookup_path ...

2018-05-08 10:12:38 2551 1

原创 Tensorflow— 下载google图像识别网络inception-v3并查看结构

代码:import tensorflow as tfimport osimport tarfileimport requests#inception模型下载地址inception_pretrain_model_url = 'http://download.tensorflow.org/models/image/imagenet/inception-2015-12-05.tgz'#...

2018-05-08 10:07:53 2777

原创 《数学之美》第11章 如何确定网页和查询的相关性

    由于商业搜索引擎已经有了大量的用户点击数据,因此,对搜索相关贡献最大的事根据用户对常见搜索点击网页的结果得到的概率模型。如今,影响搜索引擎质量的诸多因素,除了用户的点击数据之外,可以归纳为四大类:        完备的索引。        对网页质量的度量,比如PageRank。        用户偏好。        确定一个网页和某个查询的相关性的方法。1 搜索关键词权重的科学度量TF...

2018-05-07 20:46:39 1320

原创 leetcode--Two Sum

代码:"""Given an array of integers, return indices of the two numbers such that they add up to a specific target.You may assume that each input would have exactly one solution, and you may not use the...

2018-05-07 17:39:39 1203

原创 Tensorflow— saver_restore

代码:import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_datamnist = input_data.read_data_sets('MNIST_data/', one_hot=True)运行结果:Extracting MNIST_data/train-images-idx3-ubyte....

2018-05-07 15:39:12 1405

原创 Tensorflow— saver_save

代码:import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_data#载入数据集mnist = input_data.read_data_sets("MNIST_data",one_hot=True)运行结果:Extracting MNIST_data/train-images-idx3-...

2018-05-07 15:36:47 1531

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除