python
文章平均质量分 71
chinwuDebug
博客原文在简书:吴祺育的笔记
展开
-
老中医---根治python编码问题(unicode,str等)
最近做爬虫,对编码问题头疼不已,网上看到一篇讲的很到位的博客,彻底根治此疑难杂症。【问题】python中已获取网页:http://blog.csdn.net/hfahe/article/details/5494895的html源码,其时UTF-8编码的。提取出其标题部分:?12345原创 2016-05-25 10:33:40 · 1753 阅读 · 0 评论 -
对CNN各层的深入理解以及BP中的权重变化
继续温故,CNN篇。这次重新思考的是CNN中每层的作用,以及之前没有思考过的BP中梯度更新的过程。CNN的结构最典型的CNN的结构是由如若干个卷积层+池化层,再接若干个(一般一到两个)全连接层组成。总的来说,这个最典型的CNN结构,终究是起到一个分类器的作用。卷积层做不同特征提取,采样层负责选择相应的特征,全连接层负责分类。卷积层卷积运算这里就不讲了,这里讲一下filter。filt...原创 2018-11-30 20:52:12 · 996 阅读 · 0 评论 -
短文本评分方法 (Short Text Scoring Method)
短文本评分方法 (Short Text Scoring Method)此方法是基于改进后的RAKE算法并结合word2vector,对短文本内容进行评分的一种方法。RAKE的改进原RAKE算法对划分后的短语打分机制存在一点问题,短语的长度对短语的得分影响大。也就是说,如果一个不重要的短语,但是它足够长,这个短语的分数就会高。这一点是存在较大问题的,针对这一点,对RAKE进行了以下改进。一个短语的原创 2017-10-13 17:39:00 · 3190 阅读 · 0 评论 -
短文本关键词提取算法RAKE & TextRank及改进
最近做的一个项目是短文本关键词提取(twitter, linkedin post),这里主要用到了两个算法,一个是TextRank, 一个是RAKE,总的来说,这两个算法思路上差别很大,但对于短文本的关键词提取来说,RAKE算法效果更为明显。TextRank 介绍 TextRank 算法是一种用于文本的基于图的排序算法。其基本思想来源于谷歌的 PageRank算法, 通过把文本分割成若干组成单元(单原创 2017-09-15 16:31:48 · 27979 阅读 · 15 评论 -
上班之后完成的第一个项目
今天下午,终于在3月上班后,完成了第一个项目。项目的大致内容是,将wikipedia上的某个特定分类(n多个子分类)的所有内容抓取下来,放到gensim中的word2vector训练处模型。 再将不同的keywords的simword叠加起来,后面的similarity相加,取前topN个,生成一个重复的simword template。中间进行了很多种尝试,从公司的ES,到原创 2017-07-14 17:23:47 · 625 阅读 · 0 评论 -
pycharm输出中文出现乱码的几种解决方法以及读取时打印出现乱码的解决
pycharm打印中文出现乱码,有几种情况第一种:对于这种情况,是普通的一种,你需要检查开头,是否加了# -*- coding:utf-8 -*-还有import sysreload(sys)sys.setdefaultencoding('utf-8')对于这两个处理中文输出的代码,最好每次处理中文时就加上,会减少很多问题第二种问题:原创 2016-09-14 10:33:43 · 22148 阅读 · 1 评论 -
字符串匹配的KMP算法和朴素算法,及其python实现
KMP算法部分转载自阮一峰博客《字符串匹配的KMP算法》原贴地址:http://www.ruanyifeng.com/blog/2013/05/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm.html字符串匹配是计算机的基本任务之一。举例来说,有一个字符串"BBC ABCDAB ABCDABCDABDE",我想知道,里面是否包含另一转载 2016-07-18 10:35:35 · 5084 阅读 · 7 评论 -
matplotlib.pyplot.plot()参数详解
matplotlib.pyplot.plot(*args, **kwargs) 绘制线条或标记的轴。参数是一个可变长度参数,允许多个X、Y对可选的格式字符串。例如,下面的每一个都是合法的:plot(x, y) #plot x, y使用默认的线条样式和颜色plot(x, y, 'bo') #plot x,y用蓝色圆圈标记plot(y) #plot y用翻译 2016-06-30 00:44:48 · 35302 阅读 · 3 评论 -
糗百爬虫V2,可爬图片和段子
这个版本是上个爬虫的进化版,可以爬10页热门图片下来,还有些地方没做好,有问题请留言转载请注明,谢谢#-*- coding:utf-8 -*-from bs4 import BeautifulSoupimport urllibimport urllib2import sysreload(sys)sys.setdefaultencoding('utf-8')clas原创 2016-05-15 15:08:54 · 722 阅读 · 0 评论 -
安装Numpy,Scipy,Matplotlib的步骤及下载地址(亲测有效)
使用python做矩阵计算,离开不了Numpy的使用。Numpy的安装略有些问题,这里把我在安装过程中出现的问题和解决方法供大家参考。1 下载地址地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/这个地址上可以找Numpy,Scipy,Matplotlib的whl,32位64位的都有,比去官网下载方便多了。首先把所有的安装包都下下来。原创 2016-05-04 22:35:46 · 3684 阅读 · 0 评论 -
初学爬虫,爬取糗百段子(修改版,亲测)
这几天在网上看爬虫教程,有一个教程觉得写得很好,研究了一下,感谢作者做出这么好的教程。原网页地址为:http://blog.csdn.net/column/details/why-bug.html这个代码也是基于原作者爬虫代码修改而来,原网页地址为:http://blog.csdn.net/pleasecallmewhy/article/details/8932310在代码原创 2016-05-02 22:23:01 · 1403 阅读 · 0 评论 -
老中医根治python编码问题2
原地址:http://www.crifan.com/summary_python_2_x_common_string_encode_decode_error_reason_and_solution/【总结】Python 2.x中常见字符编码和解码方面的错误及其解决办法Python 2.x中的字符编码,设计的的确不好,导致初学者,甚至是即使用Python很长时间的人,都会经常转载 2016-05-25 10:37:49 · 781 阅读 · 0 评论 -
博客迁移至简书
实在受不了CSDN的广告了,越来越垃圾。呼吁抵制CSDN。博客迁移至简书:https://www.jianshu.com/u/ed8ec5442f76欢迎大家交流!原创 2018-12-21 18:57:05 · 293 阅读 · 0 评论