- 博客(60)
- 收藏
- 关注
原创 《数学之美》第31章 大数据的威力--谈谈数据的重要性
1 数据的重要性2 数据的统计和信息技术3 为什么需要大数据 首先,只有当一些随机事件的组合一同出现了很多次以后,才能得到有意义的统计规律; 其次,大数据的采集过程是一个自然过程,有利于消除主观性的偏差; 最后,它可能是解决IT行业之外的一些难题的钥匙。...
2018-05-17 16:33:06 855
原创 《数学之美》第30章 Google大脑和人工神经网络
1 人工神经网络 人工神经网络是一个分层的有向图,第一层接收输入的信息,也称为输入层。第二层的节点照此将数值向后面传递,直到第三层节点,如此一层层传递,直到最后一层,最后一层又称为输出层。2 训练神经网络 人工神经网络分为有监督的训练和无监督的训练两种。 有了训练数据,定义一个成本函数C,然后按照梯度下降法找到让成本达到最小值的那组参数。3 人工神经网络与贝叶斯函数的关系 ...
2018-05-17 16:26:49 977
原创 《数学之美》第29章 各个击破算法和Google云计算的基础
云计算的关键之一是,如何把一个非常大的计算问题,自动分解到许多计算能力不是很强大的计算机上,共同完成。 1 分治算法的原理 将一个复杂的问题,分成若干个简单的字问题进行解决。然后,对子问题的结果进行合并。得到原有问题的解。 2 从分治算法到MapReduce 将一个大任务拆分成小的子问题,并且完成子问题任务的计算,这个过程叫做Map,将中间结果合并...
2018-05-17 15:24:09 329
原创 《数学之美》第28章 逻辑回归和搜索广告
1 搜索广告的发展 搜索广告基本上走过了三个阶段。 第一阶段是以早期Overture和百度的广告系统为代表,按广告主出价高低来排名的竞价排名广告。 第二阶段雅虎和百度推出的“Panama系统”和“凤巢系统”。 第三阶段是进一步的全局优化。 预测点击率,最好的办法就是根据以往经验值来预测。实际情况远没有那么简单。 首先,这种办法对于...
2018-05-17 13:25:58 438
原创 《数学之美》第27章 期望最大化算法
1 文本的自收敛分类 两种文本分类算法,即利用事先设定好的类别对新的文本进行分类,以及自底向上地将文本两两比较进行聚类的方法。这两种方法,多少都有一些局限性,比如前一种方法需要有事先设定好的类别和文本中心,后一种方法计算时间比较长。 期望最大化算法: 1. 随机挑选K个点,作为起始的中心。 2. 计算所有点到这些聚类中心到距离,将这些点归到最近的一类中。 ...
2018-05-17 13:12:01 455
原创 《数学之美》第26章 维特比和他的维特比算法
1 维特比算法 维特比算法是一个特殊但应用最广的动态规划算法。利用动态规划,可以解决任何一个图中的最短路径问题。而维特比算法是针对一个特殊的图--篱笆网络(Lattice)的有向图最短路径问题而提出的。它之所以重要,是因为凡事使用隐含马尔可夫模型描述的问题都可以用它来解码,包括今天的数字通信、语音识别、机器翻译、拼音转汉字、分词等。2 CDMA技术--3G移动通信的基础 扩频传输和固定...
2018-05-17 09:17:43 494
原创 《数学之美》第25章 条件随机场、文法分析及其他
1 文法分析--计算机算法的演变 自然语言的句法分析(Sentence Parsing)一般是指根据文法对一个句子进行分析,建立这个句子的语法树,即文法分析(Syntactic Parsing),有时也是指对一个句子中各成分的语义进行分析,得到对这个句子语义的一种描述(比如一种嵌套的框结构,或者语义树),即语义分析(Semantic Parsing)。 布朗大学计算机系的计算语言学家尤...
2018-05-17 09:06:00 474
原创 关于MNIST数据集的处理
代码:import tensorflow as tf# 导入 MNIST 数据from tensorflow.examples.tutorials.mnist import input_datamnist = input_data.read_data_sets("./MNIST_data/", one_hot=True)运行结果:Extracting ./MNIST_data/train-i...
2018-05-16 09:57:22 4144 1
原创 《数学之美》第21章 拼音输入法的数学原理
1 输入法和编码2 输入一个汉子需要敲多少个键--谈谈香农第一原理3 拼音转汉子的算法4 个性化的语言模型
2018-05-14 15:28:01 696
原创 Tensorflow— name/variable_scope
代码:import tensorflow as tf# tf.name_scope 主要结合 tf.Variable() 来使用,方便参数命名管理。# 创建一个命名空间with tf.name_scope("conv1"): weights1 = tf.Variable([1.0,2.0], name='weights') bias1 = tf.Variable([0.1]...
2018-05-14 09:42:37 137
原创 Tensorflow— word2vec
代码:# 导入包import tensorflow as tf# encoding=utf8 from __future__ import absolute_importfrom __future__ import divisionfrom __future__ import print_functionimport collectionsimport mathimport o...
2018-05-12 16:38:20 303
原创 激活函数
激活函数是用来加入非线性因素的,解决线性模型所不能解决的问题。1 sigmoid函数 函数公式: 缺陷:当输入稍微远离了坐标原点,函数的梯度就变得很小了,几乎为零(软饱和激活函数)。 在反向传播过程中,sigmoid向下传导的梯度包含一个激活函数导数的因子,一旦落入饱和区,导数为0,导致了向底层传播的梯度非常小,称为梯度消失。 ...
2018-05-12 13:37:31 418
原创 leetcode--Two Sum(2)
代码:"""Given an array of integers, return indices of the two numbers such that they add up to a specific target.You may assume that each input would have exactly one solution, and you may not use the...
2018-05-12 08:28:03 384
原创 文本分类
代码:from gensim import corpora, models# 载入字典dictionary = corpora.Dictionary.load("corpus.dict")f = open("prepare_corpus.txt", "rb")corpusX, corpusY = [], []for line in f: words = line.decod...
2018-05-11 12:41:44 1104
原创 建立字典
代码:# 分类# 社会 国际 体育 科技 。。。# 建立一个字典(词库)以备特征的提取import json from bs4 import BeautifulSoupimport jiebaimport jieba.posseg as pseg# 读取json文件input_file = "new_items.json"f = open(input_file, 'rb')...
2018-05-11 12:35:32 2151
原创 从json到抽取关键词
代码:import json from bs4 import BeautifulSoupimport jiebaimport jieba.analyse# 读取json文件第一行的内容f = open("items.json")# 读取第一行dic = json.loads(next(f))content = dic["content"]print(content)运行结果...
2018-05-10 11:51:49 2154
原创 jieba之sedict(自定义字典)
代码:import jiebastring = "李小福是创新办主任也是云计算方面的专家"# 精确模式分词cut_result = jieba.cut(string)print("===" * 20)print("/".join(cut_result))# 创新办没有识别出来# 用自定义词典来定义创新办# 创新办 3 ijieba.load_userdict("userdi...
2018-05-10 10:40:24 11112
原创 jieba之segment
代码:import jiebasentence = "我来到清华大学"# 从分词粒度上来讲,全模式 > 搜索模式 > 精确模式# 精确模式seg_list = jieba.cut(sentence)#jieba的分词结果是产生一个生成器print("===" * 20)print(seg_list)#如何打印生成器,用分隔符去拼接print("===" * 2...
2018-05-10 10:08:20 1255
原创 Json
代码:import json# 对Json解码test = json.loads('["foo", {"bar":["baz", null, 1.0, 2]}]') print("===" * 20)print(test)print("===" * 20)print(type(test))dict = '{"foo":"bar", "jso
2018-05-10 09:51:55 736
原创 BeautifulSoup
代码:from bs4 import BeautifulSoup#一个html格式的内容doc = ['<html><head><title>Page title</title></head>', '<body><p id="firstpara" align="center&quo
2018-05-09 21:47:59 873
原创 时间戳
代码:import time # 将时间转换为时间戳dt = "2018年5月9日 20:12"# 先将时间转换为时间数组timeArray = time.strptime(dt, "%Y年%m月%d日 %H:%M")print("时间数组:")print(timeArray)# 然后将时间数组转换为时间戳timestamp = time.mktime(timeArray...
2018-05-09 20:33:13 1642
原创 requests抓取以及Xpath解析
代码:# requests抓取import requests# 新浪新闻的一篇新闻的urlurl = 'http://news.sina.com.cn/s/2018-05-09/doc-ihaichqz1009657.shtml'res = requests.get(url)# 查看编码方式enconding = requests.utils.get_encodings_fr...
2018-05-09 20:30:54 12818 2
原创 《数学之美》第12章 有限状态机—地图与本地搜索的核心技术
智能手机的定位和导航功能,其实只有三项关键技术: 第一,利用卫星定位 第二,地址的识别 第三,根据用户输入的起点和终点,在地图上规划最短路线或者最快路线1 地址分析和有限状态机 地址的识别和分析是本地搜索必不可少的技术。 地址的文法是上下文有关文法中相对简单的一种,因此有许多识别和分析的方法,但最有效的是有限状态机。 有限状态机是...
2018-05-08 12:49:08 1286
原创 Tensorflow— 使用inception-v3做各种图像的识别
代码:import tensorflow as tfimport osimport numpy as npimport refrom PIL import Imageimport matplotlib.pyplot as plt代码:class NodeLookup(object): def __init__(self): label_lookup_path ...
2018-05-08 10:12:38 2551 1
原创 Tensorflow— 下载google图像识别网络inception-v3并查看结构
代码:import tensorflow as tfimport osimport tarfileimport requests#inception模型下载地址inception_pretrain_model_url = 'http://download.tensorflow.org/models/image/imagenet/inception-2015-12-05.tgz'#...
2018-05-08 10:07:53 2777
原创 《数学之美》第11章 如何确定网页和查询的相关性
由于商业搜索引擎已经有了大量的用户点击数据,因此,对搜索相关贡献最大的事根据用户对常见搜索点击网页的结果得到的概率模型。如今,影响搜索引擎质量的诸多因素,除了用户的点击数据之外,可以归纳为四大类: 完备的索引。 对网页质量的度量,比如PageRank。 用户偏好。 确定一个网页和某个查询的相关性的方法。1 搜索关键词权重的科学度量TF...
2018-05-07 20:46:39 1320
原创 leetcode--Two Sum
代码:"""Given an array of integers, return indices of the two numbers such that they add up to a specific target.You may assume that each input would have exactly one solution, and you may not use the...
2018-05-07 17:39:39 1203
原创 Tensorflow— saver_restore
代码:import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_datamnist = input_data.read_data_sets('MNIST_data/', one_hot=True)运行结果:Extracting MNIST_data/train-images-idx3-ubyte....
2018-05-07 15:39:12 1405
原创 Tensorflow— saver_save
代码:import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_data#载入数据集mnist = input_data.read_data_sets("MNIST_data",one_hot=True)运行结果:Extracting MNIST_data/train-images-idx3-...
2018-05-07 15:36:47 1531
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人