python
文章平均质量分 63
I-Love-IT
IT控
展开
-
python爬虫乱码问题
在遇到中文字符乱码问题,归根结底就是因为编码格式不匹配,解决方法如下:1、确定源网页的编码,如果是charset=“gb2312”,则在程序中要用gb18030。其他的对应相同即可。2、将IDE中的编码格式也改成对应的编码格式。同样的如果是charset=“gb2312”,则在程序中要用gb18030。其他的对应相同即可。文件--》settings--》Editor--原创 2017-10-10 09:23:24 · 323 阅读 · 0 评论 -
机器学习神器-sklearn
机器学习的一般流程:获取数据——>数据预处理——>训练建模——>模型评估——>预测、分类1、获取数据1.1 直接使用sklearn数据集sklearn中包含了大量的优质的数据集,在你学习机器学习的过程中,你可以通过使用这些数据集实现出不同的模型。首先呢,要想使用sklearn中的数据集,必须导入datasets模块:from sklearn imp...原创 2018-10-18 10:28:02 · 386 阅读 · 0 评论 -
如何正确训练DNN
一、训练一个网络的步骤:1、定义一个网络架构2、如何评估一个网络架构的好坏3、真正训练出好的网络架构4、在训练集上测试网络的好坏,如果不好,说明网络没有训练好5、在测试集上测试网络的好坏,如果不好,说明出现过拟合现象二、结果不好,并不意味着一定是overfitting在下图左侧的training Data中,20层的网络误差比56层小,并不是说明20层的网络性能好,也可能是因为50层的网络并没有训...原创 2018-04-14 17:29:35 · 5198 阅读 · 1 评论 -
深度学习10大框架对比分析
BEEVA Labs 数据分析师 Ricardo Guerrero Gomez-Ol 在 Medium 上发表了一篇文章,盘点了目前最流行的深度学习框架。为什么要做这一个盘点呢?他写道:「我常听到人们谈论深度学习——我该从哪里开始呢?TensorFlow 是现在最流行的吧?我听说 Caffe 很常用,但会不会太难了?在 BEEVA Labs,我们常常需要应对许多不同的深度学习库,所以我希望能够将我...转载 2018-04-12 10:20:55 · 2759 阅读 · 0 评论 -
python图片、向量相关处理
python图片、向量相关处理访问文件夹下的图片 for root, dirs, files in os.walk(dir): if len(dirs)==0: lable=root[12:] for file in files: img=io.imread(root+’/’+file) #i...原创 2018-04-11 20:49:51 · 1239 阅读 · 0 评论 -
逐步反向传播示例
背景反向传播是训练神经网络的常用方法。 网上不乏论文试图解释反向传播如何起作用,但很少有包含实际数字的例子。 这篇文章是我试图解释它如何在一个具体的例子里工作,人们可以比较自己的计算,以确保他们正确理解反向传播。概述对于本教程,我们将使用具有两个输入,两个隐藏的神经元,两个输出神经元的神经网络。 此外,隐藏和输出神经元将包括一个偏置。基本结构如下:为翻译 2018-04-16 16:04:33 · 948 阅读 · 0 评论 -
深度学习图像领域——资源库
图像生成绘画风格到图片的转换:Neural Stylehttps://link.zhihu.com/?target=https%3A//github.com/jcjohnson/neural-style这个项目是用 Torch 对 Leon A. Gatys, Alexander S. Ecker, 和 Matthias Bethge 等人的论文“A Neural Algorithm of Art...转载 2018-04-14 21:49:28 · 1044 阅读 · 0 评论 -
python中的矩阵、多维数组----numpy
1. 引言 最近在将一个算法由matlab转成python,初学python,很多地方还不熟悉,总体感觉就是上手容易,实际上很优雅地用python还是蛮难的。目前为止,觉得就算法仿真研究而言,还是matlab用得特别舒服,可能是比较熟悉的缘故吧。matlab直接集成了很多算法工具箱,函数查询、调用、变量查询等非常方便,或许以后用久了python也会感觉很好用。与python转载 2018-04-08 21:58:11 · 392 阅读 · 0 评论 -
数据分析1--常数e
自然常数,是数学科的一种法则。约为2.71828,就是公式为lim(1+1/x)^x,x→∞或lim(1+z)^(1/z),z→0 ,是一个无限不循环小数,是为超越数。e是一个重要的常数,但是我一直不知道,它的真正含义是什么。它不像π。大家都知道,π代表了圆的周长与直径之比3.14159,可是如果我问你,e代表了什么。你能回答吗?维基百科说:"e是自然对数的底数。"但是,你转载 2018-03-26 10:20:12 · 1500 阅读 · 0 评论 -
OCR开源库(文本区域定位和文本识别):github
一、SWT识别:yestinsong/Text-Detection( Text Detection System with MSER , SWT and Text Verification(fft and pca) )https://github.com/yestinsong/Text-Detectionaperrau/DetectText:Detect text with str转载 2017-11-28 21:37:10 · 11484 阅读 · 0 评论 -
【python 自然语言处理】对胡歌【猎场】电视剧评论进行情感值分析
本文基于python3.5编写,如果使用python2.7,只需要修改编码部分和print部分即可。豆瓣猎场短评爬虫# encoding: utf-8import reimport requestsimport codecsimport timeimport randomfrom bs4 i原创 2017-11-28 21:34:15 · 728 阅读 · 0 评论 -
关于Python爬虫,这里有一条高效的学习路径
如果你仔细观察,就不难发现,懂爬虫、学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样的编程语言提供越来越多的优秀工具,让爬虫变得简单、容易上手。转载 2017-11-07 10:15:34 · 1420 阅读 · 0 评论 -
tensorflow系列笔记:流程,概念和代码解析
tensorflow系列笔记:流程,概念和代码大数据挖掘DT数据分析 公众号: datadwtensorflow是google在2015年开源的深度学习框架,可以很方便的检验算法效果。这两天看了看官方的tutorial,极客学院的文档,http://wiki.jikexueyuan.com/project/tensorflow-zh/get_sta转载 2017-11-07 10:18:45 · 347 阅读 · 0 评论 -
numpy的快体现在哪儿
1、本文主要对传统for循环,sum函数,以及numpy包中的sum函数的执行快慢进行比较for循环:sum_by_for="""for d in data: s+=d"""sum函数:sum_by_sum="""sum(data)"""numpy中的sum函数:sum_by_numpy="""import nu原创 2018-10-24 17:10:36 · 340 阅读 · 0 评论