镜镜詅痴-CSDN博客

原创 TensorFlow学习笔记（二）

实现官网上的最简单的Demo，即利用SoftMax Regression来对MNIST手写数字图片进行分类预测。目的是总结利用Tensorflow框架来完成神经网络学习的一般流程。代码如下：from TensorFlow import input_dataimport tensorflow as tfmnist = input_data.read_data_sets("MN...

2018-07-18 11:51:25 325 1

原创 TensorFlow学习笔记（一）

Tensorflow的基本概念使用图（graphs）来表示计算任务，即一整个计算任务流程被抽象成一个有向图图的执行必须在被称之为会话（Session）的上下文中进行张量tensor表示数据通过变量（Variable）维护状态使用feed为任意操作（op）赋值使用fetch从任意操作中获取数据注：可以将tensor看做不能被存储的数据，即经过操作op后，tensor将不...

2018-07-17 16:31:21 556

原创多线程编程

线程与Python全局解释器锁 Python代码的执行由Python虚拟机（解释器主循环）进行控制。在主循环中同时只能有一个控制线程在执行，尽管Python解释器中可以运行多个线程，但在任意给定时刻只有一个线程会被解释器执行。对Python虚拟机的访问是由全局解释器锁（GIL）控制的，该锁用来保证同时只能有一个线程运行。Python虚拟机将按照如下方式执行：设置GIL切换进一个线程去运行执...

2018-07-01 17:36:02 298

原创正则表达式

正则表达式为高级的文本模式匹配、抽取、与/或文本形式的搜索和替换功能提供了基础。正则表达式是一些由字符和特殊符号组成的字符串，它们描述了模式的重复或者表述多个字符，能按照某种模式匹配一系列有相似特征的字符串。Python通过re模块来支持正则表达式，需要注意的是，Python中有两种方法完成模式匹配：search()和match()。search是在字符串人一部分中搜索匹配的模式；而mat...

2018-06-29 10:31:26 477

原创 Python网络爬虫学习笔记（五）

微信公众号文章爬取以搜狗的微信搜索平台“http://weixin.sogou.com/”作为爬取入口，可以在搜索栏输入相应关键词来搜索相关微信公众号文章。我们以“机器学习”作为搜索关键词。可以看到搜索后的地址栏中内容为：http://weixin.sogou.com/weixin?query=%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0&_sug_ty...

2018-06-20 15:49:33 786 1

原创 Python网络爬虫学习笔记（四）

链接爬虫目的：把一个网页中所有的链接地址提取出来实现思路：确定好要爬取的入口链接根据需求构建好链接提取的正则表达式模拟成浏览器并爬取对应网页根据2中的正则表达式提取出该网页中包含的链接过滤掉重复的链接后续操作，例如打印这些链接以下程序是获取“http://blog.csdn.net/”网页上的所有链接import reimport urllib.request...

2018-06-20 14:03:35 305

原创 Python网络爬虫学习笔记（三）

手写一个图片爬虫将京东上的笔记本图片全部下载到本地，通过Python图片爬虫实现。京东笔记本商城的页面网址为“https://list.jd.com/list.html?cat=670,671,672”，这就是我们要爬取的第一个网页。该爬虫程序的关键是自动爬取第一页以外的其他页面。单击下一页，观察到网址有如下变化：https://list.jd.com/list.html?cat=670,...

2018-06-20 11:53:58 404

原创 Python网络爬虫学习笔记（二）

Urllib库与URLError异常用Urllib快速爬取一个网页：import urllib.requestif __name__=='__main__': file=urllib.request.urlopen("http://www.baidu.com") #用urllib.request.urlopen打开并爬取一个网页 data=file.read() ...

2018-06-20 10:33:37 410

原创 Python网络爬虫学习笔记（一）

网络爬虫的组成网络爬虫由控制节点、爬虫节点、资源库构成。控制节点，又称为爬虫的中央控制器，主要负责根据URL地址分配线程，并调用爬虫节点进行具体的爬行。网络爬虫中可以有多个控制节点，每个控制节点下可以有多个爬虫节点，控制节点之间可以互相通信，控制节点和其下的爬虫节点之间也可以相互通信，属于同一个控制节点下的各爬虫节点间，也可以相互通信。实现原理与实现技术不同网络爬虫原理不尽相同，但...

2018-06-19 16:07:05 517

原创机器学习实战笔记：树回归

使用ID3算法构建的决策树有如下问题：每次选取当前最佳的特征来分割数据，并按照该特征所有可能的取值来切分。也就是说，一个特征有n个取值，那么数据就会被分割成n份。使用某一特征来分割数据后，该特征在之后的算法执行过程中将不会再起作用，这种切分方式过于迅速。不能直接处理连续型特征，只有事先将连续型特征转换成离散型，才能使用ID3算法。 CART算法是一种基于“基尼指数”的决策树构建算...

2018-06-13 12:16:45 284

原创机器学习实战笔记：决策树

决策树的每一次判定都是对某一属性的测试，每个测试的结果或是导出最终结论，或是导出进一步的判定问题。决策的最终结论则对应最终的判定结果。一般的，一棵决策树包含一个根结点，若干内部结点和若干个叶结点：每个叶结点对应于一个决策结果，存放一个类别；每个非叶结点表示一个特征属性测试；每个分支代表这个特征属性在某个域上的输出；每个结点包含的样本集合通过属性测试被划分到子结点中；根结点包含样本全...

2018-06-10 22:42:58 423

原创机器学习实战笔记：K-均值聚类

K-均值算法：首先，随机确定k个初始点作为质心。根据样本与类中心的距离将数据集中的每个点分配到相应的簇中，接着重新计算类中心，迭代直至收敛。伪代码如下：创建k个点作为起始质心（随机选择）当任意一个点的簇分配结果发生改变时：对数据集中的每个数据点：对每个质心：计算质心与数据点之间的距离将数据点分配到距其最近的簇...

2018-06-09 18:31:30 271

原创机器学习实战笔记：回归

回归的目的是预测数值型的目标值。即找到一个回归方程，通过求解其中的回归系数（该过程就称为回归），给定输入来得到预测值。这里我们之谈论线性回归。用线性回归找最佳拟合直线回归的一般方法：收集数据；准备数据；分析数据：可以绘出数据的可视化二维图将有助于对数据做出理解和分析，在采用缩减法求得新回归系数之后，可以将新拟合线绘在图上作为对比训练算法：找到回归系数测试算法：使用R^2或者预测值...

2018-06-07 10:17:19 309

原创机器学习实战笔记：集成学习

集成学习分为两类：个体学习器间存在强依赖关系，必须串行生成的序列方法：Boosting个体学习器之间不存在强一赖关系，可同时生成的并行方法：Bagging和随机森林 Boosting：先从初始训练集训练出一个基学习器...

2018-06-05 12:36:01 360

原创机器学习实战笔记：支持向量机

SVM的一般流程：收集数据；准备数据：数值型分析数据：有助于可视化分隔超平面训练算法；测试算法；使用算法；简化的SMO算法： SMO算法中的外循环确定要优化的最佳alpha对，简化版跳过这一步骤，首先在数据集上遍历每一个alpha，然后在剩下的alpha集合中随机选择另一个alpha，从而构建alpha对。为此，下述代码构建一个辅助函数，用于在某个区间范围内随机选择一个整数。...

2018-06-04 11:47:13 366

原创机器学习实战笔记：Logistic回归

Logistic回归的一般过程为：收集数据；准备数据：要求是数值型分析数据；训练算法：训练的目的是找到最佳的分类回归系数w和b测试算法；使用：输入数据并基于训练好的回归系数对样本进行分类基于梯度上升法的优化方法确定回归系数： w:=w+α▽f(w),其中w是要优化的参数，α是更新步长，▽是梯度。 ...

2018-06-02 12:06:05 486

最近开始学习Python编程，遇到scatter函数，感觉里面的参数不知道什么意思于是查资料,最后总结如下：1、scatter函数原型2、其中散点的形状参数marker如下：3、其中颜色参数c如下:4、基本的使用方法如下：[python] view plain copy#导入必要的模块 import numpy as np import matplotlib.pyplot as plt #产...

2018-06-02 11:48:50 2349

原创机器学习实战笔记：利用朴素贝叶斯对文本进行分类

使用朴素贝叶斯的一般流程为：收集数据；准备数据：需要数值型或布尔型数据分析处理数据：绘制特征，特征选择训练算法：计算不同的独立特征的条件概率测试算法；使用算法：这里是利用朴素贝叶斯进行文档分类要从文本中获取特征，首要的是拆分文本。文本的特征来源于词条（token），一个词条可以是字符的任意组合。每一个文本片段表示为一个词条向量，向量中的值为1表示该词条在文档中出现，0表示该...

2018-06-01 12:45:41 704

原创 Numpy中矩阵切割的问题

目的：在做数据处理时，必然用到矩阵，所以想对numpy的矩阵切割做一个自我的总结和探讨。当矩阵为一维时（即向量）： #一维矩阵（向量）的切割类似于对列表/元组的切片>>> a=arange(10)>>> aarray([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])>>> a[0:9] #从下标0开始切割到下标9(...

2018-05-30 11:54:25 9416

转载 Python中的X[:,0]和X[:,1]

X[:,0]是numpy中数组的一种写法，表示对一个二维数组，取该二维数组第一维中的所有数据，第二维中取第0个数据，直观来说，X[:,0]就是取所有行的第0个数据, X[:,1] 就是取所有行的第1个数据。举例说明：[python] view plain copy import numpy as np X = np.array([[0,1],[2,3],[4,5],[6,7],[8,9],[...

2018-05-30 09:06:00 531

原创 Python：元组与列表

1.1 元组元组用小括号表示，小括号中的元素用“，”隔开。为了区别小括号中是元组元素还是数值，在元组只有一个元素时，在元素后加上“，”来避免困扰。注意元组是不可变动的对象，元组创建后不能变动每个索引所指向的引用对象。用索引号来改变元素的值会报错。例如：tup1 = ('physics', 'chemistry', 1997, 2000)tup2 = (1, 2, 3, 4, 5 )tu...

2018-05-29 11:01:42 272

原创 Python：序列与字符串

1. 序列序列数据包括list(列表)，tuple(元组)和字符串，可以类比C/C++中的数组，不过list和tuple都可以存入不同的数据类型。通常用list存放同构类型的数据，用tuple存放异构类型的数据。例如：number = [12,13,14] #listdata =('Jack','Mary','Tom') #tupleword = 'Hell...

2018-05-29 10:46:26 481

转载 NumPy的详细教程(官网手册翻译)

先决条件在阅读这个教程之前，你多少需要知道点Python。如果你想从新回忆下，请看看Python Tutorial.如果你想要运行教程中的示例，你至少需要在你的电脑上安装了以下一些软件:PythonNumPy这些是可能对你有帮助的:ipython是一个净强化的交互Python Shell，对探索NumPy的特性非常方便。matplotlib将允许你绘图Scipy在NumPy的基础上提供了很多科学模...

2018-05-29 10:25:23 308

镜镜詅痴

原创梯度下降算法的数学原理