自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 Cookie和Post模拟登陆

借助Chrome直接获取到Cookie,不过这种方式有局限性,并不如Fiddler通用,有一些网站使用这种方式获取的Cookie无法登录。经过测试,这种方式对知乎有效。在已经登录知乎的情况下,打开开发者工具,定位到 Network 选显卡,然后刷新网页,在加载的内容中,随便选择一项,然后看右侧的数据,如下图所示: 在右侧的Request Headers下面,你可以找到Cookie这一项,它后面的一

2017-11-14 11:13:09 7875

原创 Selenium(二)

声明浏览器对象 首先要引入webdriverfrom selenium import webdriverbrowser=webdriver.Chrome()browser=webdriver.Firefox()browser=webdriver.Edge()browser=webdriver.Safari()访问页面from selenium import webdriverbr

2017-11-14 10:57:12 298

原创 GridSearchCV

GridSearchCV 用于系统地遍历多种参数组合,通过交叉验证确定最佳效果参数。它的好处是,只需增加几行代码,就能遍历多种组合。下面是来自 sklearn 文档 的一个示例:parameters = {'kernel':('linear', 'rbf'), 'C':[1, 10]}svr = svm.SVC()clf = grid_search.GridSearchCV(svr, param

2017-10-27 22:36:51 1736

原创 XPath

XPath就是这样一种根据地址找人的技术。XPath(XML Path Language)是一种HTML和XML的查询语言,他能在XML和HTML的树状结构中寻找节点。在Python中,我们安装lxml库来使用XPath 技术。

2017-10-24 22:26:01 246

原创 mongoengine使用

1.初始化连接如果我们的MongoDB 是直接在本地电脑上面运行的,可以使用以下代码来连接到电脑上的MongoDB数据库:from mongoengine import *connect(‘数据库名’) 如果MongoDB不是运行在本地电脑上面的,就需要指定ip 地址和端口:from mongoengine import *connect(‘数据库名’, host=’192.168.2.12’

2017-10-15 22:11:48 1931

原创 MongoDB入门1

pymongo指定IP和端口一共两种形式参数形式MongoDB URL形式”’python conn=MongoClient(host=’127.0.0.1’,post=27017) ”’ post 是数字不是字符

2017-10-15 16:41:04 246

原创 Numpy 1.1

np.min和np.maxnumpy.ndarray.minndarray.min(axis=None, out=None, keepdims=False)Return the minimum along a given axis.”’ In[2]: import numpy as np In[3]: x=[[1,2,3] ,[4,5,3]] In[4]: print np.min(x,0

2017-10-10 11:00:08 178

原创 爬虫基础1.2--Request

requests.request

2017-10-10 10:54:34 182

原创 学习曲线

让我们根据模型通过可视化图形从数据中学习的能力来探讨偏差与方差之间的关系。机器学习中的学习曲线是一种可视化图形,能根据一系列训练实例中的训练和测试数据比较模型的指标性能。在查看数据与误差之间的关系时,我们通常会看到,随着训练点数量的增加,误差会趋于下降。由于我们尝试构建从经验中学习的模型,因此这很有意义。我们将训练集和测试集分隔开,以便更好地了解能否将模型泛化到未见过的数据而不是拟合到刚见过的数据。

2017-09-05 13:32:54 1065

原创 误差原因

现在来关注一下模型起初为何会出现误差。在模型预测中,模型可能出现的误差来自两个主要来源,即:因模型无法表示基本数据的复杂度而造成的偏差(bias),或者因模型对训练它所用的有限数据过度敏感而造成的方差(variance)。偏差造成的误差 - 准确率和欠拟合如前所述,如果模型具有足够的数据,但因不够复杂而无法捕捉基本关系,则会出现偏差。这样一来,模型一直会系统地错误表示数据,从而导致准确率降低。这种现

2017-09-04 21:42:45 1196

原创 评估指标

Accuracy Confusion Matrix 查全率recall和查准率precision通过上面表格,我们来看下查全率和查准率的定义。查全率是在这个人是Hugo Chavez的概率下,准确识别Hugo Chavez的概率(看横向)。查准率是我们检测到Hugo Chavez的次数里,确实是Hugo Chavez的概率(看纵向)。 计算Donald Rumsfeld的TP FP FN

2017-09-04 21:10:28 499

原创 Python sys.path

python的sys.path是一个字符串列表,列表里面包含了所需模块的查找路径,在python的环境变量PYTHONPATH里被初始化,所以一般是默认的,不需要我们去更改。 我们自己写程序的时候,文件比较多的时候,会把不同的文件modul放在不同的文件夹底下,为了方便地调用import模块,我们可以利用sys.path.appned('模块路径')来把模块的路径添加到文件里,这样pytho

2017-08-29 21:42:33 899

原创 欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2017-08-29 21:27:10 249

原创 朴素贝叶斯分类器

NN

2017-08-24 19:54:28 298

原创 异常值

异常值产生原因 1.传感器故障 2.数据录入错误 3.异常事件异常值检测的基本方法 异常值得简单的检测方法过程如上图所示,描述如下: 1.先用简单的模型对所有数据进行训练拟合 2.去除数据集中跟训练模型预测误差最大的10%的数据,一般称为残差 3.用去除后的数据进行重新训练

2017-08-24 16:54:46 618

原创 文章标题

pandas的merge方法提供了一种类似于SQL的内存链接操作 merge的left_on和right_on跟on其实是差不多的,on的话是左右两个都要有相同的列名,left_on和right_on可以指定不同表里不同的列名,也就是列名可以不也一样。left_on是左边的DataFrame里用作key的列,right_on是右边DataFrame用作key的列。 left_inde

2017-08-14 15:29:42 132

原创 爬虫基础1--Request

从get的源码来看,其实它是调用了request方法,可以说实际上requests只有request一种方法,但是为了使用方便,把它封装成六种方法。Responser.status_code表示是否获取成功,如果返回200则表示获取成功,返回其他则表示失败。Response对象属性用get方法爬取页面的基本流程 理解Response编码

2017-08-07 14:07:02 214

原创 Python __call__

如果定义了__call__函数,当调用类对象的实例的时候,实例会调用__call__方法,这样实例的外观和用法就类似于函数了,换句话说,我们可以把这个类型的对象当作函数来使用,相当于重载了括号运算符. 在Python的官方文档里对这个的说明是,如果定义了__call__的话,x(arg1, arg2, ...) is a shorthand for x.__call__(arg1, arg2, .

2017-08-07 10:49:27 198

原创 HTML基础1

第一个简单的HTML页面p标记表示的是内容,标记的意义跟程序里的类是相似的,元素则跟类的实例相似,因此p标记和p元素是不一样的,页面里有多段话,就会有多个p元素,在实际中经常不区分这两个概念单标记元素(没有结束标记的)全局属性全局属性是所有HTML元素都可以添加的属性。ID:在html中,我们要求每个元素都有一个唯一的id,这样就可以在CSS或者javascript中通过ID来找到这个元素cl

2017-08-06 11:40:31 241

原创 TensorFlow基础1

Tensorflow的优点:可视化TensorboardCheckpoints:实验状态的保存和恢复自动微分/求导Tensorflow上层库接口Graph和Session在Tensorflow里面,计算的定义和执行是被分开的,用数据流图Data Graph Flow来定义计算。这个的好处是可以进行分布式运算,把OP(Operation)分发到不同的机器Server上运算,将结果返回到maste

2017-08-03 21:11:22 223

原创 欢迎使用CSDN-markdown编辑器

Monte Carlo Tree Search 围棋的空间太大,很难用树形结构全部罗列展开,比如MinMax,所以用Monte Carlo Tree Search 对某个节点之后的情况进行随机模拟 Multi-Armed Bandit Problem这个是著名的老虎机问题xi代表玩第i台老虎机平均赢到的钱,后面根式里的表达式让算法有机会去尝试其他机器。如果一直玩同一台机器的话,n和ni都都会变大

2017-08-03 20:30:13 133

原创 快速排序

快速排序的最坏时间复杂度是θ(n^2)。虽然最坏的时间复杂度很差,但是快速排序是实际排序应用中最好的选择,因为它的期望时间复杂度是θ(nlgn)。另外它还可以进行原址排序(in place sorting),不需要增加额外的空间。来看一下算法导论里面对快速排序的伪代码描述来看一段关于快速排序演示的视频,这个是哈佛大学cs50课程关于快速排序的一个演示  https://www.yo

2016-02-06 22:26:41 212

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除