自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

wangsiji_buaa的博客

人工智能,我们一起进步

  • 博客(122)
  • 收藏
  • 关注

原创 python写入csv(解决了乱码问题)

import csvdef save_file(file_path, title, data): with open(file_path, 'a', newline='', encoding='utf-8-sig') as csvfile: spamwriter = csv.writer(csvfile) spamwriter.writerow(ti...

2019-01-23 18:51:29 2135

原创 python日志

日志等级:使用范围FATAL:致命错误CRITICAL:特别糟糕的事情,如内存耗尽、磁盘空间为空,一般很少使用ERROR:发生错误时,如IO操作失败或者连接问题WARNING:发生很重要的事件,但是并不是错误时,如用户登录密码错误INFO:处理请求或者状态变化等日常事务DEBUG:调试过程中使用DEBUG等级,如算法中每个循环的中间状态代码 import logging...

2019-01-08 20:02:05 635

原创 python读取文件夹下文件

代码import osdef get_file_deep(folder_path): """ 当前路径下名每个文件路径(最底层) """ for root, dirs, files in os.walk(folder_path): for file in files: yield os.path.join(root...

2019-01-08 19:58:00 695

原创 python每隔2s执行一次hello world!

代码import timedef sleep_time(hour, min, sec): return hour * 3600 + min * 60 + sec# 时间间隔second = sleep_time(0, 0, 2)while True: time.sleep(second) print('hello world!') ...

2019-01-08 19:56:06 14721 5

原创 python检测英文拼写错误

代码from enchant.checker import SpellCheckerdef get_error_words(sen): """ 返回错误单词 """ chkr = SpellChecker("en_US") chkr.set_text(sen) for err in chkr: print("ERROR:"...

2019-01-08 19:53:56 4577 3

原创 python读写excel(合并单元格)

读取import xlrddef read_excel(file_path): # 获取数据 data = xlrd.open_workbook(file_path) # 获取所有sheet名字 sheet_names = data.sheet_names() for sheet in sheet_names: # 获取sheet...

2019-01-08 19:48:48 26186 8

原创 01_字符串处理-----05_相似性度量

# NLTK中的nltk.metrics包用于提供各种评估或相似性度量from __future__ import print_functionfrom nltk.metrics import *def main1(): training = 'PERSON OTHER PERSON OTHER OTHER ORGANIZATION'.split() testing =...

2018-08-26 12:58:16 275

原创 01_字符串处理-----04_在文本中应用ZIpf定律

# Zipf定律指出,文本中标识符出现的频率与其在排序列表中的排名或位置成反比。# 所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。# 该定律描述了标识符在语言中是如何分布的:一些标识符非常频率的出现,另一些出现频率较低,还有一些基本上不出现。# 使用NLTK获取Zipf定律的双对数图# 单词在文档中的排名相对其出现...

2018-08-26 12:57:45 575

原创 01_字符串处理-----03_替换和校正标识符

1.3.1 使用正则表达式替换单词# 创建replacers.py文件,被调用import rereplacement_patterns = [(r'won\'t', 'will not'),(r'can\'t', 'cannot'),(r'i\'m', 'i am'),(r'ain\'t', 'is not'),(r'(\w+)\'ll', '\g<1> wil...

2018-08-26 12:56:47 338

原创 01_字符串处理-----02_标准化

1.2.1 消除标点符号def main1(): text = [" It is a pleasant evening.", "Guests, who came from US arrived at the venue", "Food was tasty."] from nltk.tokenize import word_tokenize tokenized_docs...

2018-08-25 09:50:04 718

原创 01_字符串处理------01_切分

 1.1.1 将文本切分为语句def main1(): from nltk.tokenize import sent_tokenize import nltk text = " Welcome readers from U.S. I hope you find it interesting. Please do reply." print(sent_toke...

2018-08-23 23:36:05 631

原创 《数学之美》第31章 大数据的威力--谈谈数据的重要性

1 数据的重要性2 数据的统计和信息技术3 为什么需要大数据    首先,只有当一些随机事件的组合一同出现了很多次以后,才能得到有意义的统计规律;    其次,大数据的采集过程是一个自然过程,有利于消除主观性的偏差;    最后,它可能是解决IT行业之外的一些难题的钥匙。...

2018-05-17 16:33:06 859

原创 《数学之美》第30章 Google大脑和人工神经网络

1  人工神经网络    人工神经网络是一个分层的有向图,第一层接收输入的信息,也称为输入层。第二层的节点照此将数值向后面传递,直到第三层节点,如此一层层传递,直到最后一层,最后一层又称为输出层。2 训练神经网络    人工神经网络分为有监督的训练和无监督的训练两种。    有了训练数据,定义一个成本函数C,然后按照梯度下降法找到让成本达到最小值的那组参数。3 人工神经网络与贝叶斯函数的关系   ...

2018-05-17 16:26:49 980

原创 《数学之美》第29章 各个击破算法和Google云计算的基础

    云计算的关键之一是,如何把一个非常大的计算问题,自动分解到许多计算能力不是很强大的计算机上,共同完成。    1 分治算法的原理        将一个复杂的问题,分成若干个简单的字问题进行解决。然后,对子问题的结果进行合并。得到原有问题的解。    2 从分治算法到MapReduce         将一个大任务拆分成小的子问题,并且完成子问题任务的计算,这个过程叫做Map,将中间结果合并...

2018-05-17 15:24:09 330

原创 《数学之美》第28章 逻辑回归和搜索广告

1 搜索广告的发展    搜索广告基本上走过了三个阶段。        第一阶段是以早期Overture和百度的广告系统为代表,按广告主出价高低来排名的竞价排名广告。        第二阶段雅虎和百度推出的“Panama系统”和“凤巢系统”。        第三阶段是进一步的全局优化。    预测点击率,最好的办法就是根据以往经验值来预测。实际情况远没有那么简单。        首先,这种办法对于...

2018-05-17 13:25:58 441

原创 《数学之美》第27章 期望最大化算法

1 文本的自收敛分类    两种文本分类算法,即利用事先设定好的类别对新的文本进行分类,以及自底向上地将文本两两比较进行聚类的方法。这两种方法,多少都有一些局限性,比如前一种方法需要有事先设定好的类别和文本中心,后一种方法计算时间比较长。    期望最大化算法:        1. 随机挑选K个点,作为起始的中心。        2. 计算所有点到这些聚类中心到距离,将这些点归到最近的一类中。  ...

2018-05-17 13:12:01 457

原创 《数学之美》第26章 维特比和他的维特比算法

1 维特比算法    维特比算法是一个特殊但应用最广的动态规划算法。利用动态规划,可以解决任何一个图中的最短路径问题。而维特比算法是针对一个特殊的图--篱笆网络(Lattice)的有向图最短路径问题而提出的。它之所以重要,是因为凡事使用隐含马尔可夫模型描述的问题都可以用它来解码,包括今天的数字通信、语音识别、机器翻译、拼音转汉字、分词等。2 CDMA技术--3G移动通信的基础    扩频传输和固定...

2018-05-17 09:17:43 497

原创 《数学之美》第25章 条件随机场、文法分析及其他

1 文法分析--计算机算法的演变    自然语言的句法分析(Sentence Parsing)一般是指根据文法对一个句子进行分析,建立这个句子的语法树,即文法分析(Syntactic Parsing),有时也是指对一个句子中各成分的语义进行分析,得到对这个句子语义的一种描述(比如一种嵌套的框结构,或者语义树),即语义分析(Semantic Parsing)。    布朗大学计算机系的计算语言学家尤...

2018-05-17 09:06:00 479

原创 《数学之美》第24章 马尔可夫链的扩展--贝叶斯网络

1 贝叶斯网络2 贝叶斯网络在词分类中的应用3 贝叶斯网络的训练

2018-05-16 17:16:52 1006

原创 《数学之美》第23章 布隆过滤器

1 布隆过滤器的原理2 布隆过滤器的误识别问题

2018-05-16 17:06:34 400

原创 关于MNIST数据集的处理

代码:import tensorflow as tf# 导入 MNIST 数据from tensorflow.examples.tutorials.mnist import input_datamnist = input_data.read_data_sets("./MNIST_data/", one_hot=True)运行结果:Extracting ./MNIST_data/train-i...

2018-05-16 09:57:22 4153 1

原创 《数学之美》第22章 自然语言处理的教父马库斯和他的优秀弟子们

1 教父马库斯2 从宾夕法尼亚大学走出的精英们

2018-05-14 15:53:41 415

原创 《数学之美》第21章 拼音输入法的数学原理

1 输入法和编码2 输入一个汉子需要敲多少个键--谈谈香农第一原理3 拼音转汉子的算法4 个性化的语言模型

2018-05-14 15:28:01 706

原创 Tensorflow— name/variable_scope

代码:import tensorflow as tf# tf.name_scope 主要结合 tf.Variable() 来使用,方便参数命名管理。# 创建一个命名空间with tf.name_scope("conv1"): weights1 = tf.Variable([1.0,2.0], name='weights') bias1 = tf.Variable([0.1]...

2018-05-14 09:42:37 140

原创 《数学之美》第20章 不要把鸡蛋都放到一个篮子里--谈谈最大熵模型

1 最大熵原来和最大熵模型2 最大熵模型的训练

2018-05-14 08:49:44 617

原创 《数学之美》第19章 谈谈数学模型的重要性

正确

2018-05-14 08:37:18 661

原创 《数学之美》第18章 闪光的不一定是金子--谈谈搜索引擎反作弊问题和搜索结果的权威性问题

1 搜索引擎的反作弊2 搜索结果的权威性

2018-05-14 08:32:26 402

原创 Tensorflow— word2vec

代码:# 导入包import tensorflow as tf# encoding=utf8 from __future__ import absolute_importfrom __future__ import divisionfrom __future__ import print_functionimport collectionsimport mathimport o...

2018-05-12 16:38:20 306

原创 激活函数

激活函数是用来加入非线性因素的,解决线性模型所不能解决的问题。1 sigmoid函数    函数公式:    缺陷:当输入稍微远离了坐标原点,函数的梯度就变得很小了,几乎为零(软饱和激活函数)。                在反向传播过程中,sigmoid向下传导的梯度包含一个激活函数导数的因子,一旦落入饱和区,导数为0,导致了向底层传播的梯度非常小,称为梯度消失。               ...

2018-05-12 13:37:31 420

原创 leetcode--Two Sum(2)

代码:"""Given an array of integers, return indices of the two numbers such that they add up to a specific target.You may assume that each input would have exactly one solution, and you may not use the...

2018-05-12 08:28:03 385

原创 《数学之美》第17章 由电视剧《暗算》所想到的—谈谈密码学的数学原理

1 密码学的自发时代2 信息论时代的密码学

2018-05-11 15:49:24 1225

原创 《数学之美》第16章 信息指纹及其应用

1 信息指纹2 信息指纹的用途3 信息指纹的重复性和相似哈希

2018-05-11 15:49:21 1814

原创 文本分类

代码:from gensim import corpora, models# 载入字典dictionary = corpora.Dictionary.load("corpus.dict")f = open("prepare_corpus.txt", "rb")corpusX, corpusY = [], []for line in f: words = line.decod...

2018-05-11 12:41:44 1117

原创 建立字典

代码:# 分类# 社会 国际 体育 科技 。。。# 建立一个字典(词库)以备特征的提取import json from bs4 import BeautifulSoupimport jiebaimport jieba.posseg as pseg# 读取json文件input_file = "new_items.json"f = open(input_file, 'rb')...

2018-05-11 12:35:32 2155

原创 《数学之美》第15章 矩阵运算和文本处理中的两个分类问题

1 文本和词汇的矩阵2 奇异值分解的方法和应用场景

2018-05-10 15:58:35 1635 4

原创 从json到抽取关键词

代码:import json from bs4 import BeautifulSoupimport jiebaimport jieba.analyse# 读取json文件第一行的内容f = open("items.json")# 读取第一行dic = json.loads(next(f))content = dic["content"]print(content)运行结果...

2018-05-10 11:51:49 2164

原创 jieba之sedict(自定义字典)

代码:import jiebastring = "李小福是创新办主任也是云计算方面的专家"# 精确模式分词cut_result = jieba.cut(string)print("===" * 20)print("/".join(cut_result))# 创新办没有识别出来# 用自定义词典来定义创新办# 创新办 3 ijieba.load_userdict("userdi...

2018-05-10 10:40:24 11137

原创 jieba之segment

代码:import jiebasentence = "我来到清华大学"# 从分词粒度上来讲,全模式 > 搜索模式 > 精确模式# 精确模式seg_list = jieba.cut(sentence)#jieba的分词结果是产生一个生成器print("===" * 20)print(seg_list)#如何打印生成器,用分隔符去拼接print("===" * 2...

2018-05-10 10:08:20 1260

原创 Json

代码:import json# 对Json解码test = json.loads('["foo", {"bar":["baz", null, 1.0, 2]}]') print("===" * 20)print(test)print("===" * 20)print(type(test))dict = '{"foo":"bar", "jso

2018-05-10 09:51:55 736

原创 BeautifulSoup

代码:from bs4 import BeautifulSoup#一个html格式的内容doc = ['<html><head><title>Page title</title></head>', '<body><p id="firstpara" align="center&quo

2018-05-09 21:47:59 875

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除