2020年04月_疯子书生z

原创 pandas -----合并全集（append、aassign、combine、upadte、concate、merge、join）

目录1.导入数据2.append与assign2.1 append方法2.2. assign方法3.combine与update3.1. comine方法1.导入数据import numpy as npimport pandas as pddf = pd.read_csv('data/table.csv')df.head()SchoolClassIDGenderAd...

2020-04-30 17:36:18 585

原创 jupyter lab出现的问题 ------快捷键无法运行，菜单无法点击

最近一直在使用jupyter lab写一些代码和练习，突然有一天，快捷键就不好使了，也运行不了代码。我网上查了一下，基本都是jupyter lab安装和卸载的。所以没办法我就卸载了一下正常的卸载是 pip uninstall 模块（包）所以我就卸载一下重装。发现pip install jupyterlab运行之后，显示已经安装。我就知道，没那么容易卸载干净。于是又搜了一下安装了pip-a...

2020-04-29 11:20:42 5203 1

原创机器学习 ---- 条件随机场

目录1.什么是条件随机场2.马尔科夫过程3.隐马尔科夫算法4.条件随机场（以线性链条件随机场为例）4.1定义4.2基本问题4.3概率计算问题4.4 前向-后向算法5. BFGS 算法6.预测问题1.什么是条件随机场条件随机场是一种无向图模型，且相对于深度网络有非常多的优势，因此现在很多研究者结合条件随机场（CRF）与深度网络获得更鲁棒和可解释的模型。在介绍条件随机场之前，首先简单说明马尔科夫...

2020-04-28 10:43:50 599

原创爬虫---------selenium抓取腾讯新闻

目录1.导入相关模块2.打开chromedriver3.设置滚动条4.滚动条下滑到定位的元素5.解析页面6.遍历标签输出结果7.输出结果抓取腾讯新闻思路：selenium模拟浏览器操作BeautlfulSoup解析存储数据1.导入相关模块from selenium import webdriverfrom bs4 import BeautifulSoupimport panda...

2020-04-27 11:04:28 758

原创 pandas -----变形（透视表、melt、stack、unstack），哑变量与因子变化

目录导入数据1. 透视表1. 1 pivot1.2. pivot_table1.3 crosstab（交叉表）2.其他变形方法2.1. melt2.2. 压缩与展开3.哑变量与因子化3.1. Dummy Variable（哑变量）3.2. factorize方法5.练习导入数据import numpy as npimport pandas as pddf = pd.read_csv('da...

2020-04-26 17:26:43 1435 1

原创爬虫 ----------session和cookie

目录1.前置：动态网页和静态网页1.1 静态网页1.2 动态网页1.3 http1.02. session和cookies2.1 session2.2 cookies3.实战案例：模拟登录1631.前置：动态网页和静态网页1.1 静态网页静态网页就是我们上一篇写的那种 html 页面，后缀为 .html 的这种文件，直接部署到或者是放到某个 web 容器上，就可以在浏览器通过链接直接访问到...

2020-04-25 15:04:55 396

原创爬虫 -------Seleium

这里写目录标题1. selenium1.1 导入模块1. seleniumselenium是什么：一个自动化测试工具（大家都是这么说的）selenium应用场景：用代码的方式去模拟浏览器操作过程（如：打开浏览器、在输入框里输入文字、回车等），在爬虫方面很有必要准备工作：安装selenium（pip install selenium）安装chromedriver（一个驱动程序，用以...

2020-04-25 15:01:03 245

原创数据挖掘 ---- Pandas之分组

目录导入模块及数据1. SAC过程1.1 内涵1.2. apply过程2. groupby函数2.1. 分组函数的基本内容：2.2. groupby对象的特点3.聚合、过滤和变换3.1. 聚合（Aggregation）3.2.2. 过滤（Filteration）3. 变换（Transformation）4.apply函数4.1. apply函数的灵活性4.2. 用apply同时统计多个指标5.练...

2020-04-24 16:40:55 580

原创爬虫 --------构建ip代理池

目录1.如何应对IP被封的问题2.获取代理IP地址2.1 使用代理2.2确认代理IP地址有效性2.3改进：确认网站title3 关于http和https代理我们在进行爬虫的时候，总会遇到ip被封的情况，是因为网站为了防止被爬取，会有反爬机制，对于同一个IP地址的大量同类型的访问，会封锁IP，过一段时间后，才能继续访问。1.如何应对IP被封的问题有几种方法：修改请求头，模拟浏览器（而不是代...

2020-04-24 10:45:22 42242

原创机器学习-------- EM算法推导及高斯混合分布

1. 前言EM算法是机器学习十大算法之一，它很简单，但是也同样很有深度，简单是因为它就分两步求解问题，E步：求期望（expectation）M步：求极大（maximization)深度在于它的数学推理涉及到比较繁杂的概率公式等，所以本文会介绍很多概率方面的知识，不懂的同学可以先去了解一些知识，当然本文也会尽可能的讲解清楚这些知识，讲的不好的地方麻烦大家评论指出，后续不断改进完善。2....

2020-04-23 14:24:39 545

原创机器学习 ---- 朴素贝叶斯

目录1 相关概念1.1 生成模型1.2 判别模型2 先验概率、条件概率2.1条件概率2.2先验概率2.3 后验概率3 贝叶斯决策理论4 贝叶斯公式4.1 极大似然估计4.2 朴素贝叶斯分类器5 极值问题情况下的每个类的分类概率6 下溢问题如何解决7 零概率问题如何解决？8 sklearn参数详解9 优缺点10 参考文献1 相关概念导入相关模块以及数据集from sklearn.n...

2020-04-23 09:58:09 428

原创数据挖掘---- pandas之索引

目录1.单级索引1. 1 loc方法、iloc方法、[ ]操作符1.1.1 loc方法（注意：所有在loc中使用的切片全部包含右端点！）1.1.2 iloc方法（注意与loc不同，切片右端点不包含）1.2 布尔索引1.2.1 布尔符号：'&','|','~'：分别代表和and，或or，取反not1.2.2 isin方法1.2.3 快速标量索引1.2.4 区间索引1.2.4.1利用inte...

2020-04-21 17:56:36 568

原创爬虫 -----beautifulsoup、Xpath、re （三）附淘宝比价定向爬虫

目录1.正则表达式 re1.1 正则表达式语法1.3 正则表达式re库的使用1.4 re库的主要功能函数：1.6 re库的另一种等价用法（编译）1.7 re 库的贪婪匹配和最小匹配2. 实例-淘宝商品比价定向爬虫1.正则表达式 re典型的搜索和替换操作要求您提供与预期的搜索结果匹配的确切文本。虽然这种技术对于对静态文本执行简单搜索和替换任务可能已经足够了，但它缺乏灵活性，若采用这种方法搜索动态...

2020-04-20 17:24:49 776

原创爬虫 -----beautifulsoup、Xpath、re （二）附爬取丁香园用户名以及回复内容

目录1.Xpath简介1.1使用流程：1.2Xpath常用的路径表达式1.3 使用lxml解析2 实战：爬取丁香园-用户名和回复内容2.1 获取url的html2.2 lxml解析html2.3 利用Xpath表达式获取user和content（完成xpath的语句）2.4 保存爬取的内容1.Xpath简介XPath即为XML路径语言（XML Path Language），它是一种用来确定XM...

2020-04-20 16:36:31 548

原创爬虫 -----beautifulsoup、Xpath、re （一）附全国大学排名抓取

目录1.BeautifulSoup简介1.1 BeautifulSoup使用流程1.2 BeautifulSoup 库的基本元素1.3 基于bs4库的HTML内容遍历方法1.4基于bs4库的HTML内容的查找方法2. 实战：中国大学排名定向爬取2.1 从网络上获取大学排名网页内容2.2 提取网页内容中信息到合适的数据结构（二维数组）2.3 利用数据结构展示并输出结果1.BeautifulSou...

2020-04-20 16:17:33 753 1

原创 python-------assign的使用方法

assign的用途是增加新的一列df1['B']=list('abc')df1AB11a22b33cdf1.assign(C=pd.Series(list('def')))ABC11ae22bf33cNaN没有指定Series的index默认是从0开始的。使用assign添...

2020-04-20 10:38:27 13977 1

原创数据挖掘 -------pandas基础（文件读写、数据结构、常用基本函数）

目录1.简介2. 文件读写2.1读取2.2 写入2.3 pandas数据结构2.3.1 Series2.3.2DataFrame3.常用基本函数3.1. head和tail3.2 unique和nunique3.3 count和value_counts3.4 describe和info3.5 idxmax和nlargest3.6 clip和replace3.7 apply函数4.排序4.1索引排序...

2020-04-19 17:34:13 983

原创机器学习 -----线性回归

目录1.线性回归的概念1.1线性回归的原理1.1.1线性回归的一般形式：1.1.2极大似然估计（概率角度的诠释）2、线性回归损失函数、代价函数、目标函数3、线性回归的优化方法3.1、梯度下降法2 、最小二乘法矩阵求解3、牛顿法4、拟牛顿法4、线性回归的评价指标5、sklearn.linear_model参数详解：1.线性回归的概念1、线性回归的原理2、线性回归损失函数、代价函数、目标函数3...

2020-04-19 15:40:17 1355

原创爬虫基础---简单使用（附带豆瓣电影top250）

文章目录1.简介1.1互联网1.2 HTTP2.网页基础2.2网页组成2.3网页结构2.4HTML DOM2.5CSS2.6使用开发者工具检查网页requests.get3.requests.post3.2request.get进阶：爬取豆瓣电影3.2.1<divclass="item"> :一部电影信息对应对应的源代码。4.使用api4.1API使用示例5.JavaScript与AJ...

2020-04-19 10:51:56 2710

原创数据挖掘（四）---模型融合

目录1.模型融合介绍1.1Stacking介绍1.2 如何进行stacking1.3stacking方法详解2.代码实例2.1回归\分类概率-融合2.1.1简单加权平均，结果直接融合2.1.2 Stacking融合（回归）2.2分类模型融合2.2.1Voting投票机制2.2.2分类的Stacking\Blending融合2.2.3分类的Stacking融合(利用mlxtend)2.3.4 其他方...

2020-04-04 13:28:20 557

原创数据挖掘（三）---建模与调参

目录建模调参简介1.1读取数据2.1线性回归 & 五折交叉验证 & 模拟真实业务情况2.1.1简单建模2.1.2 五折交叉验证2.1.3 模拟真实业务情况2.1.4绘制学习率曲线与验证曲线2.2 多种模型对比2.2.1 线性模型 & 嵌入式特征选择2.2.2 非线性模型2.2.3 模型调参2.2.3.1贪心调参2.2.3.2Grid Search 调参2.2.3.3贝叶斯调...

2020-04-01 17:41:44 461

疯子书生的博客