关闭

火车头采集器-Fiddler工具(1)

界面: 拖拽到浏览器窗口好定位 过滤器设置成只有包含域名的时候才捕获 网址: roll.news.qq.com 观察发现翻页网址链接没有明显变化,这样就不能抓取了,所以要用fiddler软件进行分析点击翻页按钮产生了很多链接,然后复制页面上的关键词,在fiddler中ctrl+f搜索关键词,包含关键词的链接会变成黄色的 在右侧窗口中点击,Textview即可看到源码 同样的...
阅读(15316) 评论(0)

自然语言处理-Word2Vec

拼音检查,关键词检索 文本挖掘(产品价格、日期、时间、地点、人名、公司名) 文本分类 机器翻译 客服系统 复杂对话系统A BC D EF N-Gram模型 指定N等于几就是跟前面几个词相关神经网络模型 输入层,投影层 Hierarchical Softmax...
阅读(4199) 评论(0)

分类算法-支持向量机(SVM)

支持向量机(Support Vector Machine,SVM)是Corinna Cortes和Vapnik等于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。在机器学习中,支持向量机(SVM,还支持矢量网络)是与相关的学习算法有关的监督学习模型,可以分析数据,识别模式,用于分类和回归分析。在机器学习中,支持向量机(S...
阅读(129) 评论(0)

贝叶斯算法详解

在很多应用中,属性集和类变量之间的关系是不确定的。换句话说,尽管测试记录的属性集和某些训练样例相同,但是也不能正确地预测它的类标号。这种情况产生的原因可能是噪声,或者出现了某些影响分类的因素却没有包含在分析中。例如考虑根据一个人的饮食和锻炼的频率来预测他是否有患心脏病的危险。尽管大多数饮食健康、经常锻炼身体的人患心脏病的几率较小,是否充分也是需要论证的课题,这反过来也会给学习问题带来不确定性。贝叶斯...
阅读(70) 评论(0)

集成算法-Xgboost

Xgboost其实是将弱分类器组合起来的一种算法 核心在于加入新分类器后提升预测能力 惩罚项:欧米伽ft 其中γ是惩罚力度,T是树的个数,w是权重 Xgboost Python实例: 数据集展示: import xgboost # First XGBoost model for Pima Indians dataset from numpy import loadtxt from xgb...
阅读(51) 评论(0)

决策树算法详解(3)

from sklearn.tree import DecisionTreeClassifier # 1.criterion gini or entropy# 2.splitter best or random 前者是在所有特征中找最好的切分点 后者是在部分特征中(数据量大的时候)# 3.max_features None(所有),log2,sqrt,N 特征小于50的时候一般使用所...
阅读(61) 评论(0)

决策树算法详解(2)

Python决策树原生版参考#encoding:utf-8 import mathdef createDataSet(): #训练数据集 dataSet=[['young','myope','no','reduced','no lenses'], ['young','myope','no','normal','soft'],...
阅读(56) 评论(0)

决策树算法详解(1)

使用决策树解决分类问题,例如年龄在30为分界点第一次选择,第二个决策点是长相,第三个决策点是收入,在收入中等的时候还考虑是否是公务员,这就是一颗决策树引入熵和基尼系数两个概念熵其实就是混乱度,混乱度越小越好,越清晰,所以每次划分都要让熵尽可能最小,让信息增益最大。 比如我们有如下的十四条数据,我们利用这些数据来构造决策树共有4个特征和1个主类别,构造决策树到底要用哪个特征当做根节点呢? 第一步要...
阅读(73) 评论(0)

梯度下降原理

梯度下降法是一个最优化算法,通常也称为最速下降法。最速下降法是求解无约束优化问题最简单和最古老的方法之一,虽然现在已经不具有实用性,但是许多有效算法都是以它为基础进行改进和修正而得到的。最速下降法是用负梯度方向为搜索方向的,最速下降法越接近目标值,步长越小,前进越慢。顾名思义,梯度下降法的计算过程就是沿梯度下降的方向求解极小值(也可以沿梯度上升方向求解极大值)。 其迭代公式为 ,其中 代表梯度...
阅读(84) 评论(0)

回归模型-逻辑回归

逻辑回归算法 逻辑回归 sigmod函数逻辑回归其实是分类算法,而且是典型的二分类问题 逻辑回归可以把数值都映射成0和1中 theate乘x 带入到sigmod函数中便能映射在01范围内 与线性回归差不多也要求导梯度下降原理 梯度求导反方向就是下降的方向逻辑回归python:import pandas as pd import matplotlib.pyplot as plt admiss...
阅读(48) 评论(0)

回归模型-线性回归算法

线性回归算法问题分为有监督问题和无监督问题两类 当用到标签来划分的时候就是有监督问题,当没有用标签值的时候就是无监督问题。线性回归求解的结果是值 比如: 根据工资和年龄来预测出一个具体的值,根据工资和年龄预测出贷款额度 回归和分类是两个问题,分类的话可能得到的结论是是否银行会借钱给你。可以把两个特征分别用x1和x2来表示,每个特征的影响程度是不一样的 预测值与真实值之间存在误差ξ 通常我...
阅读(53) 评论(0)

Python决策树可视化Graphviz下载地址

下载地址:http://www.graphviz.org/pub/graphviz/stable/windows/...
阅读(47) 评论(0)

python插件下载地址

http://www.lfd.uci.edu/~gohlke/pythonlibs/...
阅读(55) 评论(0)

[转载]Python爬取豆瓣影评并生成词云图代码

# -*- coding:utf-8 -*- ''' 抓取豆瓣电影某部电影的评论 这里以《我不是潘金莲为例》 网址链接:https://movie.douban.com/subject/26630781/comments 为了抓取全部评论需要先进行登录 ''' from selenium import webdriver import time import codecs import jieba...
阅读(2925) 评论(0)

Sublime搭建Python环境

使用sublime text配置Python开发环境 安装Package Control: Preferences->install Package Control 快捷键ctrl+shift+p 输入install手动:https://packagecontrol.io/installation#st3 先安装 sidebarEnhancements 侧边栏安装下列插件: S...
阅读(42) 评论(0)
64条 共5页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:29200次
    • 积分:830
    • 等级:
    • 排名:千里之外
    • 原创:57篇
    • 转载:3篇
    • 译文:0篇
    • 评论:0条