剑九黄-CSDN博客

原创 python写入csv(解决了乱码问题)

import csvdef save_file(file_path, title, data): with open(file_path, 'a', newline='', encoding='utf-8-sig') as csvfile: spamwriter = csv.writer(csvfile) spamwriter.writerow(ti...

2019-01-23 18:51:29 2135

原创 python日志

日志等级：使用范围FATAL：致命错误CRITICAL：特别糟糕的事情，如内存耗尽、磁盘空间为空，一般很少使用ERROR：发生错误时，如IO操作失败或者连接问题WARNING：发生很重要的事件，但是并不是错误时，如用户登录密码错误INFO：处理请求或者状态变化等日常事务DEBUG：调试过程中使用DEBUG等级，如算法中每个循环的中间状态代码 import logging...

2019-01-08 20:02:05 635

原创 python读取文件夹下文件

代码import osdef get_file_deep(folder_path): """ 当前路径下名每个文件路径（最底层） """ for root, dirs, files in os.walk(folder_path): for file in files: yield os.path.join(root...

2019-01-08 19:58:00 695

原创 python每隔2s执行一次hello world!

代码import timedef sleep_time(hour, min, sec): return hour * 3600 + min * 60 + sec# 时间间隔second = sleep_time(0, 0, 2)while True: time.sleep(second) print('hello world!') ...

2019-01-08 19:56:06 14721 5

原创 python检测英文拼写错误

代码from enchant.checker import SpellCheckerdef get_error_words(sen): """ 返回错误单词 """ chkr = SpellChecker("en_US") chkr.set_text(sen) for err in chkr: print("ERROR:"...

2019-01-08 19:53:56 4577 3

原创 python读写excel(合并单元格)

读取import xlrddef read_excel(file_path): # 获取数据 data = xlrd.open_workbook(file_path) # 获取所有sheet名字 sheet_names = data.sheet_names() for sheet in sheet_names: # 获取sheet...

2019-01-08 19:48:48 26186 8

原创 01_字符串处理-----05_相似性度量

# NLTK中的nltk.metrics包用于提供各种评估或相似性度量from __future__ import print_functionfrom nltk.metrics import *def main1(): training = 'PERSON OTHER PERSON OTHER OTHER ORGANIZATION'.split() testing =...

2018-08-26 12:58:16 275

原创 01_字符串处理-----04_在文本中应用ZIpf定律

# Zipf定律指出，文本中标识符出现的频率与其在排序列表中的排名或位置成反比。# 所以，频率最高的单词出现的频率大约是出现频率第二位的单词的2倍，而出现频率第二位的单词则是出现频率第四位的单词的2倍。# 该定律描述了标识符在语言中是如何分布的：一些标识符非常频率的出现，另一些出现频率较低，还有一些基本上不出现。# 使用NLTK获取Zipf定律的双对数图# 单词在文档中的排名相对其出现...

2018-08-26 12:57:45 575

原创 01_字符串处理-----03_替换和校正标识符

1.3.1 使用正则表达式替换单词# 创建replacers.py文件，被调用import rereplacement_patterns = [(r'won\'t', 'will not'),(r'can\'t', 'cannot'),(r'i\'m', 'i am'),(r'ain\'t', 'is not'),(r'(\w+)\'ll', '\g<1> wil...

2018-08-26 12:56:47 338

原创 01_字符串处理-----02_标准化

1.2.1 消除标点符号def main1(): text = [" It is a pleasant evening.", "Guests, who came from US arrived at the venue", "Food was tasty."] from nltk.tokenize import word_tokenize tokenized_docs...

2018-08-25 09:50:04 718

原创 01_字符串处理------01_切分

1.1.1 将文本切分为语句def main1(): from nltk.tokenize import sent_tokenize import nltk text = " Welcome readers from U.S. I hope you find it interesting. Please do reply." print(sent_toke...

2018-08-23 23:36:05 631

原创《数学之美》第31章大数据的威力--谈谈数据的重要性

1 数据的重要性2 数据的统计和信息技术3 为什么需要大数据首先，只有当一些随机事件的组合一同出现了很多次以后，才能得到有意义的统计规律；其次，大数据的采集过程是一个自然过程，有利于消除主观性的偏差；最后，它可能是解决IT行业之外的一些难题的钥匙。...

2018-05-17 16:33:06 859

原创《数学之美》第30章 Google大脑和人工神经网络

1 人工神经网络人工神经网络是一个分层的有向图，第一层接收输入的信息，也称为输入层。第二层的节点照此将数值向后面传递，直到第三层节点，如此一层层传递，直到最后一层，最后一层又称为输出层。2 训练神经网络人工神经网络分为有监督的训练和无监督的训练两种。有了训练数据，定义一个成本函数C，然后按照梯度下降法找到让成本达到最小值的那组参数。3 人工神经网络与贝叶斯函数的关系 ...

2018-05-17 16:26:49 980

原创《数学之美》第29章各个击破算法和Google云计算的基础

云计算的关键之一是，如何把一个非常大的计算问题，自动分解到许多计算能力不是很强大的计算机上，共同完成。 1 分治算法的原理将一个复杂的问题，分成若干个简单的字问题进行解决。然后，对子问题的结果进行合并。得到原有问题的解。 2 从分治算法到MapReduce 将一个大任务拆分成小的子问题，并且完成子问题任务的计算，这个过程叫做Map,将中间结果合并...

2018-05-17 15:24:09 330

原创《数学之美》第28章逻辑回归和搜索广告

1 搜索广告的发展搜索广告基本上走过了三个阶段。第一阶段是以早期Overture和百度的广告系统为代表，按广告主出价高低来排名的竞价排名广告。第二阶段雅虎和百度推出的“Panama系统”和“凤巢系统”。第三阶段是进一步的全局优化。预测点击率，最好的办法就是根据以往经验值来预测。实际情况远没有那么简单。首先，这种办法对于...

2018-05-17 13:25:58 441

原创《数学之美》第27章期望最大化算法

1 文本的自收敛分类两种文本分类算法，即利用事先设定好的类别对新的文本进行分类，以及自底向上地将文本两两比较进行聚类的方法。这两种方法，多少都有一些局限性，比如前一种方法需要有事先设定好的类别和文本中心，后一种方法计算时间比较长。期望最大化算法： 1. 随机挑选K个点，作为起始的中心。 2. 计算所有点到这些聚类中心到距离，将这些点归到最近的一类中。 ...

2018-05-17 13:12:01 457

原创《数学之美》第26章维特比和他的维特比算法

1 维特比算法维特比算法是一个特殊但应用最广的动态规划算法。利用动态规划，可以解决任何一个图中的最短路径问题。而维特比算法是针对一个特殊的图--篱笆网络（Lattice）的有向图最短路径问题而提出的。它之所以重要，是因为凡事使用隐含马尔可夫模型描述的问题都可以用它来解码，包括今天的数字通信、语音识别、机器翻译、拼音转汉字、分词等。2 CDMA技术--3G移动通信的基础扩频传输和固定...

2018-05-17 09:17:43 497

原创《数学之美》第25章条件随机场、文法分析及其他

1 文法分析--计算机算法的演变自然语言的句法分析（Sentence Parsing）一般是指根据文法对一个句子进行分析，建立这个句子的语法树，即文法分析(Syntactic Parsing)，有时也是指对一个句子中各成分的语义进行分析，得到对这个句子语义的一种描述（比如一种嵌套的框结构，或者语义树），即语义分析（Semantic Parsing）。布朗大学计算机系的计算语言学家尤...

2018-05-17 09:06:00 479

原创《数学之美》第24章马尔可夫链的扩展--贝叶斯网络

1 贝叶斯网络2 贝叶斯网络在词分类中的应用3 贝叶斯网络的训练

2018-05-16 17:16:52 1006

原创《数学之美》第23章布隆过滤器

1 布隆过滤器的原理2 布隆过滤器的误识别问题

2018-05-16 17:06:34 400

代码：import tensorflow as tf# 导入 MNIST 数据from tensorflow.examples.tutorials.mnist import input_datamnist = input_data.read_data_sets("./MNIST_data/", one_hot=True)运行结果：Extracting ./MNIST_data/train-i...

2018-05-16 09:57:22 4153 1

原创《数学之美》第22章自然语言处理的教父马库斯和他的优秀弟子们

1 教父马库斯2 从宾夕法尼亚大学走出的精英们

2018-05-14 15:53:41 415

原创《数学之美》第21章拼音输入法的数学原理

1 输入法和编码2 输入一个汉子需要敲多少个键--谈谈香农第一原理3 拼音转汉子的算法4 个性化的语言模型

2018-05-14 15:28:01 706

原创 Tensorflow— name/variable_scope

代码：import tensorflow as tf# tf.name_scope 主要结合 tf.Variable() 来使用，方便参数命名管理。# 创建一个命名空间with tf.name_scope("conv1"): weights1 = tf.Variable([1.0,2.0], name='weights') bias1 = tf.Variable([0.1]...

2018-05-14 09:42:37 140

原创《数学之美》第20章不要把鸡蛋都放到一个篮子里--谈谈最大熵模型

1 最大熵原来和最大熵模型2 最大熵模型的训练

2018-05-14 08:49:44 617

原创《数学之美》第19章谈谈数学模型的重要性

正确

2018-05-14 08:37:18 661

原创《数学之美》第18章闪光的不一定是金子--谈谈搜索引擎反作弊问题和搜索结果的权威性问题

1 搜索引擎的反作弊2 搜索结果的权威性

2018-05-14 08:32:26 402

原创 Tensorflow— word2vec

代码：# 导入包import tensorflow as tf# encoding=utf8 from __future__ import absolute_importfrom __future__ import divisionfrom __future__ import print_functionimport collectionsimport mathimport o...

2018-05-12 16:38:20 306

原创激活函数

激活函数是用来加入非线性因素的，解决线性模型所不能解决的问题。1 sigmoid函数函数公式：缺陷：当输入稍微远离了坐标原点，函数的梯度就变得很小了，几乎为零（软饱和激活函数）。在反向传播过程中，sigmoid向下传导的梯度包含一个激活函数导数的因子，一旦落入饱和区，导数为0，导致了向底层传播的梯度非常小，称为梯度消失。 ...

2018-05-12 13:37:31 420

原创 leetcode--Two Sum(2)

代码："""Given an array of integers, return indices of the two numbers such that they add up to a specific target.You may assume that each input would have exactly one solution, and you may not use the...

2018-05-12 08:28:03 385

原创《数学之美》第17章由电视剧《暗算》所想到的—谈谈密码学的数学原理

1 密码学的自发时代2 信息论时代的密码学

2018-05-11 15:49:24 1225

原创《数学之美》第16章信息指纹及其应用

1 信息指纹2 信息指纹的用途3 信息指纹的重复性和相似哈希

2018-05-11 15:49:21 1814

原创文本分类

代码：from gensim import corpora, models# 载入字典dictionary = corpora.Dictionary.load("corpus.dict")f = open("prepare_corpus.txt", "rb")corpusX, corpusY = [], []for line in f: words = line.decod...

2018-05-11 12:41:44 1117

原创建立字典

代码：# 分类# 社会国际体育科技。。。# 建立一个字典（词库）以备特征的提取import json from bs4 import BeautifulSoupimport jiebaimport jieba.posseg as pseg# 读取json文件input_file = "new_items.json"f = open(input_file, 'rb')...

2018-05-11 12:35:32 2155

原创《数学之美》第15章矩阵运算和文本处理中的两个分类问题

1 文本和词汇的矩阵2 奇异值分解的方法和应用场景

2018-05-10 15:58:35 1635 4

原创从json到抽取关键词

代码：import json from bs4 import BeautifulSoupimport jiebaimport jieba.analyse# 读取json文件第一行的内容f = open("items.json")# 读取第一行dic = json.loads(next(f))content = dic["content"]print(content)运行结果...

2018-05-10 11:51:49 2164

原创 jieba之sedict（自定义字典）

代码：import jiebastring = "李小福是创新办主任也是云计算方面的专家"# 精确模式分词cut_result = jieba.cut(string)print("===" * 20)print("/".join(cut_result))# 创新办没有识别出来# 用自定义词典来定义创新办# 创新办 3 ijieba.load_userdict("userdi...

2018-05-10 10:40:24 11137

原创 jieba之segment

代码：import jiebasentence = "我来到清华大学"# 从分词粒度上来讲，全模式 > 搜索模式 > 精确模式# 精确模式seg_list = jieba.cut(sentence)#jieba的分词结果是产生一个生成器print("===" * 20)print(seg_list)#如何打印生成器，用分隔符去拼接print("===" * 2...

2018-05-10 10:08:20 1260

原创 Json

代码：import json# 对Json解码test = json.loads('["foo", {"bar":["baz", null, 1.0, 2]}]') print("===" * 20)print(test)print("===" * 20)print(type(test))dict = '{"foo":"bar", "jso

2018-05-10 09:51:55 736

原创 BeautifulSoup

代码：from bs4 import BeautifulSoup#一个html格式的内容doc = ['<html><head><title>Page title</title></head>', '<body><p id="firstpara" align="center&quo

2018-05-09 21:47:59 875

空空如也

空空如也