魔仙大佬-CSDN博客

原创 python爬虫从入门到实战笔记——第一章爬虫原理和数据爬取

爬虫原理和数据抓取1.1 通用爬虫和聚焦爬虫通用爬虫聚焦爬虫1.2 HTTP和HTTPSHTTP的请求与响应浏览器发送HTTP请求的过程：客户端HTTP请求请求方法常用的请求报头服务端HTTP响应Cookie 和 Session：响应状态码常见状态码：HTTP响应状态码参考：1.3 str和bytes的区别bytesbytearray1.4 Requests的简单应用Requests: 让 HTTP 服务人类requests 的底层实现其实就是 urllib安装方式基本GET请求（headers参数和

2020-06-18 11:37:22 8430

原创 python实时招聘信息与岗位分析数据可视化大屏展示（selenium+mysql+flask）

python招聘信息与岗位分析数据可视化第一部分（数据获取）1.数据库表创建2.数据爬取入库3.数据存储与查询第二部分（前端展示）第三部分（flask web应用）首先查看目录树第一部分（数据获取）1.数据库表创建首先通过python的sqlalchemy模块，来新建一个表。creat_lagou_tables.pyfrom sqlalchemy import create_engine, Integer,String,Floatfrom sqlalchemy.orm import ses.

2020-06-04 08:07:16 9373 6

原创 pyspark入门---机器学习实战预测婴儿出生率（二）使用ML库

机器学习实战预测婴儿出生率1.加载数据2.创建转换器3.创建预测器4.创建管道5.训练模型6.使用BinaryClassificationEvaluator对模型评估7.模型保存与调用在上一文中，主要对Spark MLlib机器学习库使用流程进行了介绍。从搭建环境开始，然后加载数据，探索数据，直到进行模型的训练与评估，最终进行未知数据的预测，即预测婴儿生存机会本文则来介绍如何使用ML机器学习库来实战ML！同样使用上一节的数据集来演示ML的构建过程。再次尝试预测婴儿的生存几率。**Pipelin

2020-05-13 08:46:45 3268 1

原创 pyspark入门---机器学习实战预测婴儿出生率（一）使用MLlib库

机器学习实战预测婴儿出生率1.加载数据2.数据的探索:特征相关性3.统计校验4.创建最后的待训练数据集5.划分训练集和测试集6.开始建模7.Logistic 回归模型8.选取出最具代表性的分类特征9.随机森林模型机器学习是通过算法对训练数据构建出模型并对模型进行评估，评估的性能如果达到要求就拿这个模型来测试其他的数据，如果达不到要求就要调整算法来重新建立模型，再次进行评估，如此循环往复，最终获得满意的经验来处理其他的数据的过程。简单点讲，机器学习就是通过一定的模型，让计算机可以从大量的数据中学习到相关的

2020-05-13 07:59:45 4482 2

原创 python数据清洗实战入门笔记（一）numpy和pandas

第一章：数据清洗常用工具1.numpy常用数据结构常用清洗工具：numpy常用数据结构：Numpy常用方法数组访问方法练习（jupyter）代码下面是结果2.Numpy常用数据清洗函数数据的排序数据的搜索练习（jupyter）代码下面是结果3.Pandas常用数据结构series和dataframeseriesdataframe常用方法练习（jupyter）代码下面是结果1.numpy常用数据结构常用清洗工具：目前在Python中, numpy和pandas是最主流的工具Numpy中的向量化运算使

2020-05-11 23:03:46 2385 1

原创机器学习笔记（机器学习很难么？？？那必然难啊！！！）

机器学习第一章数据挖掘数据挖掘概念数据挖掘的模式类型第二章机器学习1 机器学习分类2 机器学习中的一些概念训练样本训练分类模型验证第三章无监督学习聚类K-means聚类算法K-means应用DBSCAN聚类算法DBSACN应用降维主成分分析（PCA）方差协方差和协方差矩阵特征向量和特征值算法过程基于聚类的“图像分割”实例编写第四章监督学习1、数据集的划分sklearn数据集介绍API分类和回归数据集返回类型2、sklearn转换器和估计器1.1 转换器1.2 估计器(sklearn机器学习算法的实现)1

2020-05-10 15:19:59 1867

原创 python实现MQTT协议（发布者，订阅者，topic）

本文章针对物联网MQTT协议完成python实现。

2023-09-01 16:26:53 4171

原创 Linux设置开机自启动脚本（亲测成功）

注意：这种方式的特点是：当使用远程访问服务器的工具连接远程服务器时，脚本不会自启动，只有在服务器开机时脚本才会自启动首先修改/etc/rc.d文件夹下的rc.local文件，把自己的脚本添加进去赋权：chmod +x /etc/rc.d/rc.local编辑rc.local文件：vi /etc/rc.d/rc.local我的install.sh脚本是启动我的网站重启服务器后，我的网站重新运行OK了，网站链接：https://www.phaseless.cn/...

2022-05-13 10:31:20 1172

原创 SQL注入（使用sqli-labs案例以及sqlmap自动化注入工具）

SQL注入：sqli-labs:一个实验平台，里面有完整的SQL注入课程，需要phpstudy环境，因此先安装phpstudy环境phpstudy:https://www.xp.cn/安装后发现数据库和我本机的数据库出现冲突了，只能使用sc delete mysql删掉我本机的mysql8服务，如果需要使用原来的mysql，管理员命令下输入mysqld --install删除之后成功启动启动成功后，去下载sqli-labs: https://github.com/Audi-1/

2022-04-29 11:51:28 5161

原创 jmeter压测服务器并监控各项指标cpu、members、diskIo、networkIo

一、性能工具的安装部署1、下载JMeterPlugins-Standard-1.4.0.zip的安装包2、解压JMeterPlugins-Standard-1.4.0.zip，将其中\lib\ext\JMeterPlugins-Standard.jar包复制到jmeter安装目录下的\lib\ext下；3、重启jmeter，选择监听器，我们可以看到监听器中多了一些东西（这里边就有我们监控要用到的功能）4、选择上图中的jp@gc-PerfMon Metrics Collector，这个就是我们监控

2022-04-14 10:32:50 6483

原创 Deployment failed: repository element was not specified in the POM inside....（已解决）

Deployment failed: repository element was not specified in the POM inside…（已解决）都搜到这里了你可以不用看其他文章了出现这个原因无非是想在本地的pom文件配置好之后，执行deploy命令，可以将maven所打的jar包上传到远程的repository，便于其他开发者和工程共享。但是！！！！！！你自己本地都没有！！！distributionManagement你怎么上传到私服啊！！！！！，因此解决方案在你自己的项目下的pom文

2021-11-22 21:12:50 21048 9

原创 BUG记录-Maven打包出错Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.7.0:compile

遇到这种问题，是因为把原先的项目删掉了，然后拉取的新项目，打包出错原因是因为idea的jdk版本不一致导致，新拉取的项目都不是你原先指定的jdk版本，比如我在maven里指定了1.8<properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <encoding>UTF-8</encoding> &l

2021-10-27 17:03:51 730

原创 BUG记录——Error executing Maven. 2 problems were encountered while building the effective settings

遇到这种问题，先看maven的setting.xml好吗！！！打开后发现，多了一行无用的，尽量用idea打开，可以检查错误删掉这一行后保存就可以打包成功了唉~以后还得少交点智商税啊，帅哥无语

2021-10-27 16:57:42 713

原创 idea编译运行单个文件解决办法（已解决）

idea默认运行单个文件总是会编译其他类，对新手写单个类不是很友好，其他博客的方法也只是删除其他类的bulid，并没有一个删除总的编译方法，按照以下流程就可以让idea运行单个文件打开运行配置把当前项目已有的application全部删掉然后点击templates点击application找到下面的build，删掉总的bulid这样就OK了...

2021-09-09 00:25:59 8131 1

原创 java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop(已解决）

java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop出现这个问题是因为加载了Windows本地的hadoop程序，因为Hadoop都是运行在Linux系统下的，在windows下idea中运行mapreduce程序，要首先安装Windows下运行的支持插件，只需要下载一个winutils.exe文件即可下载地址https://pan.baidu.com/s/1UXMXgc2OeT9-6FH

2020-10-26 23:54:08 878 2

原创 java.lang.VerifyError: class scala.collection.mutable.WrappedArray overrides final method(已解决)

java.lang.VerifyError: class scala.collection.mutable.WrappedArray overrides final method toBuffer.()Lscala/collection/mutable/Buffer;出现这个原因是因为spark版本与scala-sdk版本不一致导致的解决办法：首先找到和自己spark对应的scala-sdk版本，我的spark是2.1，因此对应2.11然后去官网下载对应的zip包https://www.scala

2020-10-26 23:52:34 2289

原创 windows上安装rob3t,并使用SSH远程连接虚拟机上面的MongoDB

官网下载rob3t，在Windows上安装成功后新建连接，配置好自己的IP地址，并选择端口号为27017如果不知道虚拟机IP地址可以ifconfig查看填写ip和端口信息，这里选择27017（MongoDB端口）然后选择ssh远程连接，输入虚拟机的用户名和密码点击Test然后保存进入就可以查看MongoDB数据库了...

2020-10-22 16:47:29 474 1

原创解决ubantu中文乱码问题

1-安装中文包支持：终端执行命令：apt-get install language-pack-zh2-配置语言环境变量sudo vim /etc/environment在下面添加如下两行:LANG="zh_CN.UTF-8"LANGUAGE="zh_CN:zh:en_US:en"打开文件:sudo vim /var/lib/locales/supported.d/local添加zh_CN.GB2312字符集，如下:en_US.UTF-8 UTF-8zh_CN.UTF-8 U

2020-10-13 14:38:24 436

原创 windows安装linux子系统，并装在其他系统盘的方法

一：打开Windows子系统由于现在网上的安装方法都是装在C盘，且执行lxrun /install /y安装的过程会出现“lxrun’ 不是内部或外部命令，也不是可运行的程序或批处理文件”因此按照此方法可以完美安装ubantu打开设置——选择更新与安全打开开发者选项–打开开发者人员模式打开程序和功能打开启用或关闭Windows功能勾选适用于Linux的Windows子系统，然后确认并重启就可以了二：安装Windows子系统安装ubantu打开链接选择想要的系统，这里我选择uba

2020-10-13 11:42:05 6318 11

原创 python爬虫从入门到实战笔记——第四章Scrapy框架

推荐阅读：python爬虫从入门到实战笔记——第一章爬虫原理和数据爬取python爬虫从入门到实战笔记——第二章非结构化数据和结构化数据的提取python爬虫从入门到实战笔记——第三章动态HTML处理和机器图像识别第四章Scrapy 框架4.1 Scrapy的安装介绍Windows 安装方式Ubuntu 需要9.10或以上版本安装方式4.2 入门案例一. 新建项目(scrapy startproject)二、明确目标(mySpider/items.py)三、制作爬虫（spiders/itcastS

2020-06-28 14:17:56 1275 1

原创 python爬虫从入门到实战笔记——第三章动态HTML处理和机器图像识别

推荐阅读：python爬虫从入门到实战笔记——第一章爬虫原理和数据爬取python爬虫从入门到实战笔记——第二章非结构化数据和结构化数据的提取三、动态HTML处理和机器图像识别3.1 动态HTML介绍JavaScriptjQueryAjaxDHTML3.2 Selenium与PhantomjsSeleniumPhantomJS快速入门页面操作鼠标动作链填充表单弹窗处理页面切换页面前进和后退Cookies页面等待显式等待隐式等待3.3 selenium+phantomjs案例案例一：模拟豆瓣网站登录案例

2020-06-25 22:24:21 788

原创安装tesseract和pytesseract识别图片出现字符编码UnicodeDecodeError问题

如标题所言，路径和库都安装好了，但是一直报错UnicodeDecodeError: ‘utf-8’ codec can’t decode byte代码如下import pytesseractfrom PIL import Imageif __name__ == '__main__': text = pytesseract.image_to_string(Image.open("data/1.png"),lang="eng") print(text)网上找了很多博客和教程基本上

2020-06-25 19:05:28 2741 2

原创 Git快速入门分布式版本管理——以经理和员工角度学习

git快速入门1 git安装配置1.1 安装1.2 配置2 经理创建2.1 创建仓库2.2 添加ssh账户2.3 克隆项目2.4 创建项目分支2.5 搭建项目框架2.6 上传分支3 员工开发3.1 添加ssh账户生成git密钥3.2 本地克隆3.3 同步分支3.4 开发管理3.5 工作区与暂存区添加撤销3.6 暂存区与仓库区3.7 本地与服务器获取推送合并分支解决冲突项目经理的操作员工助教的操作3.8 历史对比回退3.9 删除3.10 Debug分支4 经理-发布4.1 逐个合并4.2 经理合并4.3 逐个

2020-06-25 15:14:01 283

原创关于phantomjs找不到路径问题（已解决）

错误如下：WebDriverException: Message: ‘phantomjs’ executable needs to be in PATH（已解决）跟着教程做phantomjs+selenium自动爬取的练习代码如下# 导入 webdriverfrom selenium import webdriver# 调用键盘按键操作时需要引入的Keys包from selenium.webdriver.common.keys import Keys# 调用环境变量指定的PhantomJS浏览

2020-06-21 23:12:05 3785

原创 python爬虫从入门到实战笔记——第二章非结构化数据和结构化数据的提取

非结构化数据和结构化数据的提取2.1 正则表达式RE模块什么是正则表达式正则表达式匹配规则Python 的 re 模块re 模块的一般使用步骤如下：compile 函数match 方法search 方法findall 方法finditer 方法split 方法sub 方法匹配中文注意：贪婪模式与非贪婪模式2.2 案例：使用正则表达式的爬虫2.3 Xpath与lxml库什么是XMLXML 和 HTML 的区别XML文档示例HTML DOM 模型示例XML的节点关系1. 父（Parent）2. 子（Childr

2020-06-21 10:34:20 1587

原创 pandas预处理案例——数据分析师招聘数据清洗实战

数据分析师招聘数据清洗实战数据导入并查看重复数据处理异常值处理缺失值处理数据是数据分析师的招聘薪资，主要内容是进行数据读取，数据概述，数据清洗和整理数据获取：链接：https://pan.baidu.com/s/1sSmyiUfkDtVHuJEQP56h3w提取码：okic数据导入并查看首先载入的数据在pandas中，常用的载入函数是read_csv。除此之外还有read_excel和read_table，table可以读取txt。若是服务器相关的部署，则还会用到read_sql，直接访问数据库，

2020-06-18 12:41:31 2577

原创 multiprocessing多线程爬取拉勾网招聘信息（通过sqlalchemy 库创建mysql表）

1.数据库表创建首先通过python的sqlalchemy模块，来新建一个表。creat_lagou_tables.pyfrom sqlalchemy import create_engine, Integer,String,Floatfrom sqlalchemy.orm import sessionmakerfrom sqlalchemy.ext.declarative import declarative_basefrom sqlalchemy import Column#创建数据库

2020-06-08 18:03:17 456

原创 PySpark入门---机器学习实战：建立鸢尾属植物种的ML分类模型、建立ML回归模型并使用定义的特征预测电厂的发电量（使用ML库）

使用PySpark的机器学习1.创建特征2. 使用字符串索引3.分类算法*1. 贝叶斯分类器**2. 多层感知器分类**3.决策树分类*4.回归模型1.线性模型2. 决策树回归*3. 梯度增强决策树*分类和回归ML库在Spark的帮助下，从UCI机器学习知识库开源数据集。iris数据集(https://archive.ics.uci.edu/ml/machine-learning-databases/iris)电厂数据(https://archive.ics.uci.edu/ml/machine-le

2020-05-27 12:55:11 1171

原创 python数据清洗实战入门笔记（七）总结

数据清洗总结数据清洗步骤函数大全数据清洗的内容数据清洗总结数据清洗步骤数据获取,使用read_csv或者read_excel数据探索,使用shape,describe或者info函数行列操作，使用loc或者iloc函数数据整合,对不同数据源进行整理数据类型转换，对不同字段数据类型进行转换分组汇总，对数据进行各个维度的计算处理重复值、缺失值和异常值以及数据离散化函数大全merge,concat函数常常用于数据整合pd.to_datetime常常用于日期格式转换str函数用于字符串

2020-05-18 07:49:45 698

原创 python数据清洗实战入门笔记（六）数据预处理

数据清洗之数据预处理1 重复值处理练习2 缺失值处理练习3 异常值处理练习4 数据离散化练习数据集地址：https://pan.baidu.com/s/1kMH1AhE8RUyaT73rvJsVPQ提取码：aai6数据集介绍：摩托车的销售情况数据Condition：摩托车新旧情况（new：新的和used：使用过的）Condition_Desc：对当前状况的描述Price：价格Location：发获地址Model_Year：购买年份Mileage：里程Exterior_Color：车的

2020-05-18 07:44:34 820

原创 python数据清洗实战入门笔记（五）数据统计

数据清洗之数据统计数据分组方法练习1.1在线杂货店订单数据1.2 数据分组运算聚合函数使用练习分组对象与apply函数练习透视图与交叉表练习数据集地址：https://pan.baidu.com/s/1kMH1AhE8RUyaT73rvJsVPQ提取码：aai6数据分组方法• 使用groupby方法进行分组计算，得到分组对象GroupBy• 语法为df.groupby(by=)• 分组对象GroupBy可以运用描述性统计方法, 如count、mean 、 median、 max和min等

2020-05-17 20:32:17 934

原创 python数据清洗实战入门笔记（四）数据转换

数据清洗之数据转换日期数据格式处理练习字符串数据处理练习高阶函数数据处理练习数据集地址：https://pan.baidu.com/s/1kMH1AhE8RUyaT73rvJsVPQ提取码：aai6日期数据格式处理练习import numpy as npimport pandas as pdimport osos.chdir(r'G:\pythonProject\pc\Python数据清洗\data')df = pd.read_csv('baby_trade_history.csv',

2020-05-16 11:34:13 745 1

原创 python数据清洗实战入门笔记（三）表处理

数据清洗之数据表处理数据筛选练习数据增加和删除练习数据的修改和查找练习数据整理练习层次化索引练习数据筛选练习import pandas as pdimport numpy as npimport os# 更改文件路劲os.chdir(r'G:\pythonProject\pc\Python数据清洗\data')df = pd.read_csv('baby_trade_history.csv', encoding='utf-8',dtype={'user_id':str})#数据筛选#

2020-05-15 21:19:43 660

原创 python数据清洗实战入门笔记（二）文件操作

第二章：数据清洗之文件读取csv文件读写excel文件读写数据库文件读写这是一个关于淘宝母婴产品的用户消费行为的数据集，然后基于这个数据集，做数据清洗数据集地址：https://pan.baidu.com/s/1kMH1AhE8RUyaT73rvJsVPQ提取码：aai6csv文件读写import pandas as pdimport numpy as npimport os# 更改文件路劲os.chdir(r'G:\pythonProject\pc\Python数据清洗\data')

2020-05-12 20:22:43 567

原创 pyspark入门---通过kmeans分析出租车数据并调用百度API进行可视化

通过kmeans分析出租车数据并进行可视化（1）数据准备（2）创建dataframe（3）kmeans聚类分析（4）调用百度API进行数据可视化（1）数据准备采用数据为出租车载客时的GPS记录数据集，数据格式为CSV，CSV格式是数据分析中常见的一种数据格式。CSV（Comma-Separated Values）即逗号分隔值，文件以文本的方式存储表格数据（包含数字和文本）。其中每一行代表一条记录，每条记录被逗号分隔为字段，并且每条记录都有同样的字段序列。本实验一共181230条记录，具体文件格式见下表

2020-05-11 22:44:06 3785 8

web-Google.txt.gz

空空如也