Jerry_Chang31-CSDN博客

原创 python使用selenium+geckodriver完美爬取使用Ajax技术异步加载的拉勾网（附带selenium爬取BOSS直聘代码）

文章目录前言一、页面分析二、下载浏览器驱动三、详细代码四、selenium爬取BOSS直聘代码前言拉勾网的反爬虫做的很好，导致我们使用requests库进行爬取的时候，经常会被发爬虫，包括或返回空数据。同时，这个网站采用Ajax技术进行异步加载，我们在请求列表网页时，并不会获取到职位列表的相关信息，因此，使用selenium+geckodriver的方式，模拟Firefox浏览器完美爬取拉勾网...

2020-04-30 13:12:08 987 1

原创 python爬虫——使用requests库和xpath爬取猎聘网职位详情

最近闲来无事，使用python的requests库和xpath库爬取了猎聘网的招聘信息。因为只是为了练习，并没有限定职位、地域等信息。一、页面分析1.职位列表页面分析点击进入猎聘网页面如下图所示：上面是职位筛选条件，下面是相应页码点击不同的页码，查看其URL：第一页URL：https://www.liepin.com/zhaopin/?init=-1&headckid=35...

2020-04-29 18:00:55 3085

原创 Linux常用命令汇总详解（关机重启指令、文件目录类指令、时间日期类指令、搜索查找类指令、压缩解压类指令）

一、关机重启命令shutdown -h now #立即关机shutdown -h 1 #一分钟后关机shutdown -r now #立即重启reboot #重启系统sync #将内存数据同步到磁盘，在关机前应首先执行该命令，防止数据丢失二、文件目录命令1. pwd —显示当前工作目录的绝对路径pwd #显示当前工作目录的绝对路径2. ls —显示文件...

2020-04-06 22:26:15 1834 1

一、Linux介绍Linux，全称GNU/Linux，是一套免费使用和自由传播的类UNIX操作系统，其内核由林纳斯·本纳第克特·托瓦兹于1991年第一次释出，它主要受到Minix和Unix思想的启发，是一个基于POSIX和Unix的多用户、多任务、支持多线程和多CPU的操作系统。它能运行主要的Unix工具软件、应用程序和网络协议。它支持32位和64位硬件。Linux继承了Unix以网络为核心的设...

2020-04-04 23:09:40 836

原创 MySQL中使用视图（create view）

一、什么是视图？视图是虚拟的表，与包含数据的表不一样，视图不包含数据，只包含使用时动态检索数据的查询。可以理解为：视图只是一条被包装的SQL语句，它可以重复使用，简化了SQL语句的编写操作。同时，因其不包含数据，每次都需要从表中重新检索，因此速度较慢。二、视图的一些常见应用重用的SQL语句简化复杂的SQL操作，在编写查询后，可以方便地重用它，而不必知道它的基本查询细节使用表的组成部分，...

2020-03-25 19:44:08 1094

原创 MySQL中的外键（foreign key）

引言在MySQL中，我们都对主键比较了解，知道主键的主要作用是唯一区分表中的各个行；但是，对于外键（foreign key）比较陌生。那么什么是外键呢？外键的作用是什么呢？一、外键、外键作用及其限制条件1.外键的定义：外键是某个表中的一列，它包含在另一个表的主键中。外键也是索引的一种，是通过一张表中的一列指向另一张表中的主键，来对两张表进行关联。一张表可以有一个外键，也可以存在多个...

2020-03-25 16:00:44 15622 1

原创 MySQL全文本搜索、查询扩展和布尔文本搜索

引言在MySQL中，我们经常使用文本搜索功能，比较熟悉的搜索：（1）使用LIKE关键词，利用通配符匹配文本，如select col1 from table1 where col1 like 'abc%';（2）使用正则表达式搜索（REGEXP），如select col1 from table1 where col1 regexp '[123]abc';这两种搜索方式能满足我们大部分的需求，...

2020-03-16 16:11:27 506

原创 MySQL使用正则表达式搜索

引言在MySQL中，我们常用LIKE关键词对文本进行搜索，但是LIKE关键词的搜索能力有限，当随着搜索条件越来越复杂，LIKE关键词进行搜索的复杂度会随之增加，因此，在必要的时候，我们需要使用正则表达式进行搜索。正则表达式是用来匹配文本的特殊的字符集合，正则表达式的功能十分强大。如：可以从一个文本文件中提取电话号码；可以查找名字中有数字的所有文件；可以在一个文本块中找到所有重复的单词；可以替换...

2020-03-16 14:27:40 458

原创 SQL实现ROW_NUMBER、RANK、DENSE_RANK

一、简介ROW_NUMBER、RANK、DENSE_RANK都是排名函数，在MySQL8.0以上版本中，已经支持这些函数，而8.0以下版本还未支持这些函数，这些函数到底有什么作用又有什么区别呢？我们通过SQL语句实现这些函数，并理解这些函数的作用和区别。ROW_NUMBER是对数据进行排序，当出现相同数值时，排序序号增加；即不存在相同排名，排名序号连续。RANK是跳跃排序，例如：一个第一名...

2020-02-24 19:23:10 308

原创 KNN算法和KD树

一、KNN算法KNN(k-NearestNeighbor)（邻近算法，或者说K最近邻分类算法）是数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近...

2020-01-15 12:12:28 459

原创集成算法之Light GBM

一、Light GBMLight GBM是和xgboost类似的一种集成算法。xgboost算法的一个瓶颈是针对每个特征，它都需要对每一个可能的分裂点扫描全部的样本来计算基尼系数，这样大大增加了计算量，降低了算法效率。为了解决这种在大样本高纬度数据的环境下耗时的问题，Light GBM算法使用直方图方法在牺牲一定精度的条件下，换取计算速度的提升和内存的消耗；主要使用如下两种方法：一是GOSS（G...

2020-01-14 17:30:31 1538

原创集成算法之GBDT和xgboost

大家知道，我们在进行建模时，会求解一个目标函数；目标函数又称代价函数，在机器学习中普遍存在，一般形式为：obj(θ)=L(θ)+Ω(θ)obj(\theta)=L(\theta)+\Omega(\theta)obj(θ)=L(θ)+Ω(θ)；其中：L(θ)L(\theta)L(θ)为训练误差，衡量模型在训练集上的表现；Ω(θ)\Omega(\theta)Ω(θ)是正则化惩罚，衡量模型的复杂...

2020-01-06 18:32:40 342

原创层次聚类（hierarchical clustering）和聚类模型评估（calinski-harabaz index）

层次聚类（Hierarcical Clustering）层次聚类是聚类算法中的一种，它通过计算不同类别数据点之间的相似度，来创建一颗有层次的嵌套聚类树，层次聚类的策略有两种：1.Agglomerative：把每个点看成一个簇，合并这些相似的簇形成聚类；2.Divisive：把所有的点看成一个簇，分解这些点到各自簇内形成聚类；Merge和Split使用的是贪婪的方式来进行计算的，所以非常...

2020-01-04 11:51:39 6334 3

原创聚类算法之基于密度的聚类算法DBSCAN算法

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同，它将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类。DBSCAN算法最重要的两个参数是ε\varepsilonε和MinPtsMinP...

2020-01-03 20:17:47 766

原创聚类算法之K-Means，K-Means++，elkan K-Means和MiniBatch K-Means算法流程

聚类问题是机器学习中无监督学习的典型代表，在数据分析、模式识别的很多实际问题中得到了应用。我们知道，分类问题是机器学习中最常见的一类问题，它的目标是确定一个物体所属的类别。分类问题和聚类问题一个最重要的区别在于分类问题有标签，学习过程实际就是程序不断学习各个标签特点的过程，而聚类问题是一种无监督学习问题，我们事先并不知道这些事物一共多少个类，每个事物的所属类别，我们需要让程序基于一定的规则，自动地...

2020-01-03 18:33:55 1541

原创集成算法之Bagging和Boosting

集成算法，字面意思就是将单一的算法集成到一起。在集成算法中，主要有两种方法，即Bagging和Boosting。简单理解，Bagging算法：就是独立地建立多个模型，各个模型之间互不干扰，然后将多个模型预测结果做平均，作为最终预测结果；Boosting算法：有序的、依赖的建立多个模型，后一个模型用来修正前一个模型的偏差，以整体模型的预测结果作为最终预测结果。其实，在sklearn中，这些...

2020-01-03 17:10:19 626

原创决策树模型之ID3算法、C4.5算法和CART算法

决策树模型是一种常用的有监督的学习模型，其主要用来解决分类问题，但是也可用来解决回归问题。信息熵和信息增益我们先来了解两个概念，信息熵与信息增益。信息熵信息熵用来表示事物的不确定性或不纯性，信息熵越大，则表示该事物的不确定性或不纯性越大。信息熵的公式为： H(x)=−∑i=1npilogpiH(x)=-\sum_{i=1}^{n}p_ilogp_iH(x)=−∑i=1npilogpi...

2019-12-31 12:31:58 1733

原创线性回归linear regression梯度下降算法的python代码实现

#导入相关包import pandas as pdimport numpy as np#定义梯度下降函数，并传入x，y，迭代次数n_iterations,惩罚度alpha和学习率learning_ratedef gd(x,y,n_iterations,alpha,learning_rate): x = np.insert(x,0,1,axis=1) #在x中添加偏置项，并将其全部设为1...

2019-12-30 12:17:41 467

原创逻辑斯蒂回归（logistic regression）的梯度下降算法

值得注意的是，逻辑回归（logistic regression）解决的是有监督的分类问题，而非回归问题。分类和回归的区别分类问题和回归问题的区别在于输出：分类问题的输出是离散型变量，如判断一个人是否得病，只有两种结果：得病或者不得病；而回归问题的输出为连续型变量，如预测一个人五年后的工资，它就可能是一个实数区间内的任意值。logistic和多重线性回归实际上，logistic回归和多重线性...

2019-12-30 02:15:03 2953

原创线性回归(linear regression)的概率解释—使用极大似然估计推导线性回归问题

线性回归（linear regression）什么是线性回归？线性回归对一个或者多个自变量和因变量之间的关系进行建模的一种回归分析，线性回归模型应用于有监督的回归问题。线性回归模型为：y(i)=ΘT×x(i)+ε(i)y^{(i)}=\Theta ^{T}\times x^{(i)}+\varepsilon ^{(i)}y(i)=ΘT×x(i)+ε(i)其中 ϵ\epsilonϵ 代...

2019-12-30 00:00:13 1458

原创 SQL入门（二）

一、分组计算1.创建分组（1）使用 group by 关键词：select col1，count（ * ） from table group by col1；select countrycode from world.City group by countrycode ，返回 countrycode 的唯一值，相当于使用 distinct 关键词。select countrycode,av...

2019-12-26 12:04:37 210

原创 SQL入门（一）

SQL入门SQL和MySQL的区别新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入SQL和MySQL的区别很...

2019-12-20 11:07:05 189

Jerry_Chang31的博客