自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 资源 (1)
  • 收藏
  • 关注

原创 scrapy爬取招聘网站数据总结

遇到的问题:测试阶段 (提取规则):scrapy shell 网址一直 REDIRECT <302> 被重定向 需要提供 cookies 由于在terminal一直设置错误,也就没折腾。后来在pycharm设置了cookies 如下:custom_settings = {"COOKIES_ENABLED": False,"DOWNLOAD_DELAY": 1,'...

2018-08-16 12:25:23 2625

原创 xpath和css选择器重点知识小总结

先上些干火:今天使用scrapy写爬虫 碰到一个有意思的问题 也是出现 [ ] 对 就是出现了这种空格 虽坑了我 不过也发现了一个xpath新用法(也可能是我之前没发现)。xpath规则 : //*[@class="c_feature"]/li[4]/a/@href 爬去到的结果应该是:['http://www.cfca.com.cn']但是有些网站则是: //*[@class="c_...

2018-08-13 23:09:43 956

原创 scrapy---爬取某招聘网站遇到的问题小结

爬取时一直被重定向问题困扰 REDIRECT[302] 像知乎之类的网站一般爬取是需要User-Agent的 但是 对于拉勾网来说,并不必须UA。后来搜索了一下 需要提供cookie解决重定向问题:customer-settings ={"COOKIES_ENABLED": False,"DOWNLOAD_DELAY": 1,'DEFAULT_REQUEST_HEADE...

2018-08-13 22:11:39 1880

原创 scrapy--解决css选择器遇见含空格类提取问题response.css()

今天在写爬虫规则时 遇到一个含空格的类 刚开始使用css选择器无法提取到任何内容,试了几次都没成功 之后换xpath选择器成功提取出内容。个人找了多次未发现有处理类似问题的。下面是自己的解决办法。方法一》            我要用的含空格的类 position-label clearfix 完整提取规则:response.css(".position-label clearfix .l...

2018-08-12 17:23:59 5011

转载 机器学习之正则化(Regularization)

1. The Problem of Overfitting1 还是来看预测房价的这个例子,我们先对该数据做线性回归,也就是左边第一张图。 如果这么做,我们可以获得拟合数据的这样一条直线,但是,实际上这并不是一个很好的模型。我们看看这些数据,很明显,随着房子面积增大,住房价格的变化趋于稳定或者说越往右越平缓。因此线性回归并没有很好拟合训练数据。 我们把此类情况称为欠拟...

2018-08-11 11:01:08 574

原创 机器学习笔记(9)----------正则化(Regularization)

我们使用线性回归和logistic可以解决很多问题,然而,在应用这些算法中往往会出现过拟合问题,导致算法的效果很差。首先先来看看什么是过拟合问题?上图,第一个模型 欠拟合 第二个模型 拟合效果很好 第三个模型 则是我们所说的 过拟合,因为它试图拟合每一个数据点,这是一个四次方模型,过于强调拟合数据,而失去了算法的本质:预测新数据。如果给出一个新值,让其预测结果将会很差。分类中的过拟...

2018-08-11 10:55:32 259

原创 机器学习番外篇-------感知器学习法则

获取测试样例数据集 以鸢尾花为例import pandas as pdimport matplotlib.pyplot as pltfrom matplotlib.colors import ListedColormapimport numpy as np >>> source_addr='https://archive.ics.uci.edu/ml/ma...

2018-08-10 23:19:47 1621

原创 机器学习笔记(8)------------ (logistic)逻辑回归之多分类问题

多类别分类:一对多如何使用逻辑回归 (logistic regression)来解决多类别分类问题,具体来说,我想通过一个叫做"一对多" (one-vs-all) 的分类算法。也可以称为“一对余”。然而对于之前的一个,二元分类问题,我们的数据看起来可能是像这样:对于一个多类分类问题,我们的数据集或许看起来像这样:我们现在已经知道如何进行二元分类,可以使用逻辑回归,对于直线或...

2018-08-08 11:42:24 2185 1

原创 python——数据库文件保存为csv格式MySQLdb_csv

#-*- coding:utf-8 -*-import MySQLdbimport csvimport codecs#打开数据库db = MySQLdb.connect(host='localhost',user='root',passwd='19940405',db='S_T',charset='utf8')#使用cursor()获取数据库游标cursor = db.cursor(...

2018-08-07 12:06:59 2152

原创 机器学习笔记(7)-------logistic回归

logistic回归logistic回归 虽然名字中带有“回归”二字,但其主要是用来处理分类问题的。对于分类问题的处理,如果仍然使用线性回归进行处理,效果则会不够理想。我们将因变量设为 ​​,其可能属于的两个类称为正向类和负向类。其中 0 表示负向类, 1 表示正向类。                        ​我们进行分类的结果应该是 y=1或者y=0。上面使用...

2018-08-07 11:21:24 293

原创 机器学习笔记(6)--------梯度下降算法与正规方程的使用比较

X = [1 1;1 2;1 3]                y = [1; 2; 3]    = [0 ; 1]     (octave格式输入)其中x的点(1 2 3)  向量化X0 = 1 即为X= [1 1;1 2;1 3]   X_0        X_1            y1              1               11           ...

2018-08-05 11:23:38 392

原创 机器学习(5)----octave

octave之基础1. v = [1:0.1:2]   : 表示从1到2 步长为0.1    v = [1:6]    :表示[1 2 3 4 5 6]2.  C = ones(2, 3)      : 生成2×3的全1矩阵     C = 2 * ones(2, 3)      : 生成2×3的全2矩阵           类似的用法还有zeros()3.  rand(a, ...

2018-08-04 18:50:58 614

原创 机器学习笔记(4)-------正规方程理解和推导

梯度下降算法有助于解决很多线性问题,补过对于一些线性回归问题,正规方程方法有更好的解决办法。如:类似于我们以前常用的一元二次函数,对函数求导J',然后J'=0求出最小点,即可得到最小值。正规方程是通过求解下面的方程来找出使得代价函数最小的参数的:关键是利用正规方程解出向量 :个人进行了推导。首先用到了以下公式:                            ...

2018-08-04 17:57:11 1207 2

原创 机器学习笔记(3)-----梯度下降算法中特征缩放

多变量线性回归  计算代价函数 ,其中: octave求代价函数J(theta)代码:       function J = costFunctionJ(X,y,theta)       m = size(X,1);          prediction = X*theta;       sqrErrors = (prediction-y).^2;  ...

2018-08-04 17:21:47 565

jdk-1.8 linux版本 centos rpm安装版本

java jdk 1.8 linux 资源包 新的特性: Lambda表达式 函数式接口 方法引用和构造器调用 Stream API 接口中的默认方法和静态方法 新时间日期API

2019-03-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除