2019年02月_slx_share

07月 06月 05月 04月 03月 02月 01月

原创数据预处理中常用检验方法汇总以及Python示例

统计检验方法假设检验步骤：给出原假设H0H_0H0，通常为积极肯定的一面，例如原数据集及符合某类分布F(X)F(X)F(X)。挑选统计量(该统计量服从分布F(X)F(X)F(X))，根据样本计算统计量的值。根据预先设定的显著性程度或者置信度，计算临界值，若统计值超出临界值则否定原假设；或者根据统计值计算p值(符合原假设的概率)，若p值小于显著性程度则否定原假设。基于上述思想，可以先假...

2019-02-22 16:07:44 3318 1

原创异常检测—IsolationForest算法简介以及Python实现

IsolationForest是一种适合高维数据集的异常值检测算法。核心思想通过随机切分数据集，异常点应该是容易被隔离的。算法简介随机选择一个特征，再在该特征下最大与最小值间随机选择一个值作为切分点，递归切分数据集，直到每个样本点被隔开，从而构建一颗类似CART分类树的随机树。重复构建多颗随机树。从根节点到叶节点的路径越长，代表该点越难被隔离，即该点越不可能是异常点。计算每个样本点路径...

2019-02-22 15:18:57 2891

原创异常检测—LOF算法简介以及Python实现

参考资料https://dl.acm.org/ft_gateway.cfm?id=335388&amp;amp;amp;ftid=2057&amp;amp;amp;dwn=1&amp;amp;amp;CFID=51876766&amp;amp;amp;CFTOKEN=b2427295e6580441-94D5C0E4-E786-FC78-16E741661C2500A7

2019-02-21 20:26:48 11645 2

原创机器学习基础理论笔记

二分类模型TP(ture positive):正确预测为正类的样本数 FP(false positive):错误预测为正类的样本数 TN(true negtive):正确预测为负类的样本数 FN(false negtive):错误预测为负类的样本数准确率(accuracy):预测正确的样本占总样本的比例TP+TNTP+FP+TN+FNTP+TNTP+FP+TN+FN\frac{TP+...

2019-02-03 16:29:51 383

原创 Python数据可视化—matplotlib以及seaborn基础

matplotlib的默认配置存储在rcParam字典中，在动态环境中可修改字典值改变默认配置，也可以通过修改配置文件matplotlibrc，永久更改默认配置，如下：import matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei'] # 中文支持plt.rcParams['axes.unicode_min...

2019-02-03 16:26:00 1169

作为一种便捷地收集网上信息并从中抽取出可用信息的方式，网络爬虫技术变得越来越有用。使用Python这样的简单编程语言，你可以使用少量编程技能就可以爬取复杂的网站。, 《用Python写网络爬虫》作为使用Python来爬取网络数据的杰出指南，讲解了从静态页面爬取数据的方法以及使用缓存来管理服务器负载的方法。此外，本书还介绍了如何使用AJAX URL和Firebug扩展来爬取数据，以及有关爬取技术的更多真相，比如使用浏览器渲染、管理cookie、通过提交表单从受验证码保护的复杂网站中抽取数据等。本书使用Scrapy创建了一个高级网络爬虫，并对一些真实的网站进行了爬取。, 《用Python写网络爬虫》介绍了如下内容：, 通过跟踪链接来爬取网站；, 使用lxml从页面中抽取数据；, 构建线程爬虫来并行爬取页面；, 将下载的内容进行缓存，以降低带宽消耗；, 解析依赖于JavaScript的网站；, 与表单和会话进行交互；, 解决受保护页面的验证码问题；, 对AJAX调用进行逆向工程；, 使用Scrapy创建高级爬虫。, 本书读者对象, 本书是为想要构建可靠的数据爬取解决方案的开发人员写作的，本书假定读者具有一定的Python编程经验。当然，具备其他编程语言开发经验的读者也可以阅读本书，并理解书中涉及的概念和原理。

2018-01-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

slx_share的博客

原创数据预处理中常用检验方法汇总以及Python示例

原创异常检测—IsolationForest算法简介以及Python实现

原创异常检测—LOF算法简介以及Python实现

原创 Python数据可视化—seaborn各类图形的绘制

原创机器学习基础理论笔记

原创 Python数据可视化—matplotlib以及seaborn基础

用Python写网络爬虫

空空如也

原创 数据预处理中常用检验方法汇总以及Python示例

原创 异常检测—IsolationForest算法简介以及Python实现

原创 异常检测—LOF算法简介以及Python实现

原创 Python数据可视化—seaborn各类图形的绘制

原创 机器学习基础理论笔记

原创 Python数据可视化—matplotlib以及seaborn基础

用Python写网络爬虫

空空如也

原创数据预处理中常用检验方法汇总以及Python示例

原创异常检测—IsolationForest算法简介以及Python实现

原创异常检测—LOF算法简介以及Python实现

原创机器学习基础理论笔记