2019年11月_郑德帅

原创远程连接服务器MySQL数据库

1.添加腾讯云安全组规则的MySQL 3306端口，设置相应的安全组规则。规则设置，例如2.参考另一篇博客。。。mysql数据库开启远程访问设置完权限后3.mysql配置my.cnf 是否不允许外网访问[root@VM_71_45_centos ~]# vim /etc/my.cnf...

2019-11-29 18:46:50 7906

原创 python爬虫之 requests库的使用

一、requests库的安装1.直接在终端输入命令安装:2.Pycharm安装二、基于HTTP协议的requests的请求机制　1、http协议:（以请求百度为例）　　（1）请求url:　　　　　　https://www.baidu.com/　　（2）请求方式:　　　　GET　　（3）请求头:　　　　Cookie：可能需要关注。　　　　User-Age...

2019-11-29 12:52:19 7498

原创 Centos7 安装 Python

1.安装编译相关工具yum -y groupinstall "Development tools"yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-deve...

2019-11-29 10:52:41 7231

原创 CentOS7安装mysql数据库

所有的操作都是切换到root用户下进行1、安装MySQL官方的Yum Repository：wget -i -c http://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpm2、下载rpm包：yum -y install mysql57-community-release-el7-10.noarch.rpm3、...

2019-11-29 10:23:00 7247

原创 selenium+webdriver操作cookie

1.目标网站： https://www.fjggfw.gov.cn/cookie具有时效性，因此需要先将cookie保存下来；2.用requests获取cookie requests.utils.dict_from_cookiejar:把cookiejar对象转化为字典import requestsurl = "https://...

2019-11-28 10:26:54 7591 3

原创在Linux下使用selenium+ Chrome + Chromedriver

1.安装selenium pip3 install selenium 2.安装chrome 用下面的命令安装Google Chromeyum install https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64.r...

2019-11-25 11:27:19 11582 1

原创 KMeans算法( 聚类分析)

数据集在文末链接。也可留邮箱，看到会及时以邮件形式发送.1 聚类分析相关概念 1.1 聚类与分类分类其实是从特定的数据中挖掘模式，作出判断的过程。比如Gmail邮箱里有垃圾邮件分类器，一开始的时候可能什么都不过滤，在日常使用过程中，我人工对于每一封邮件点选“垃圾”或“不是垃圾”，过一段时间，Gmail就体现出一定的智能，能够自动过滤掉一些垃圾邮件了。这是因为在点选的过程中，...

2019-11-21 21:03:04 23859 15

原创基于Python的大数据分析基础（十）---词云(wordcloud)

9 词云工具库结巴+wordcloud: pip3 install jieba pip3 install wordcloud9.1.jieba分词：这里的分词主要是真多中文分词(Chinese Word Segmentation) 1.jieba 分词的主要用法： jieba.cut(s,cut_all=True) 参数： s...

2019-11-19 13:09:42 8757

原创基于Python的大数据分析基础（九）--- 数据分析

8 数据分析 8.1 基本统计分析(描述性统计分析) 一般统计某个变量的最小值，第一个四分位值，中值，第三个四分位值，以及最大值均值(Mean),中位数(Median)和众数(Mode) 其中均值和中位数用于定量的数据，众数用于定性的数据对于定量数据（ Data ）来说，均值是总和除以总量 N，中位数是数值大小位于中间（奇偶总量处理不同）...

2019-11-17 16:55:20 8048

原创基于Python的大数据分析基础（八）---数据可视化之PIL图库和OpenCV图库

点击查看PILLOW官方文档和点击查看OpenCV官方文档本篇博客目录7.8 Python 图像处理基础 7.8.1 PIL图库使用:pyhton3 中安装pillow即可使用PIL。及其具体使用 7.8.2 OpenCV图库安装 pip3 install opencv-python,注意不是pip3 install opencv。...

2019-11-17 15:47:02 8394

原创 Python windows下安装软件报错 XXX.whl is not a supported wheel on this platform.

1.报错代码如图: XXX.whl is not a supported wheel on this platform.2.解决方法:报这个错，基本是在windows下安装.whl包报错，错误原因很明显，你的环境不支持安装这个工具包，查看自己的环境支持的版本方法：在终端输入 python3 或者 python依次输入:import pip._inte...

2019-11-16 22:53:54 8817

原创基于Python的大数据分析基础（七）---数据可视化之Seaborn，Pandas可视化功能，networkx网络图，folium绘制地图

点击查看Seaborn官方文档本篇博客目录 7.3 Seaborn 专门的统计数据可视化包安装 pip3 install seaborn 7.3.1 直方图和密度函数 7.3.2 散点图和密度函数 7.3.3 分组散点图 7.3.4 六边形图 7.3.5 二维核密度估算图 7.3.6 矩阵散点图7.3.7 线性相关图 7....

2019-11-16 16:36:28 11249 1

原创基于Python的大数据分析基础（六）---数据可视化之Matplotlib

点击查看Matplotlib官方文档7.Python对数据的可视化处理 7.1 工具 Jupyter Notebook %matplotlib inline #在 jupyter 中嵌入显示,图片内嵌，而不是弹出。缺陷:除非代码一次执行，不然无法叠加绘图 %config InlineBackend.f...

2019-11-16 15:34:47 8376

原创 matplotlib绘图无法显示中文问题的解决方法

添加两行代码即可from pylab import mplmpl.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体

2019-11-16 14:48:32 7359

原创 Windows 下安装 ggplot 一直报错问题

安装时各种报错:Could not find a version that satisfies the requirement ggplot (from versions: ) No matching distribution found for ggplot后面查找资料：ggplot貌似官方已经放弃维护了，上次更新还是三年前，pandas更新API...

2019-11-09 17:08:08 7416

原创 Jupyter PermissionError: [Errno.. json]，Spyder An error ocurred while starting the kernel

报错结果如图: 脑壳疼百度半天，用了各种办法程序都跑不起来，最后利用Pycharm 启动Jupyter跑起来了，如图启动Jupyter的命令jupyter notebook但是Sypder的这个错还没找到解决方法,若有大佬看到可以帮忙指点下....

2019-11-09 16:52:01 7416

原创基于Python的大数据分析基础（五）---Pandas数据处理案例

6.数据处理实例6.1.数据如图: 6.2.需求: 6.3.处理数据: 我个人拿到数据，直接想着转换成DataFrame,然后着手算总分，然后直接数据分组,还是太年轻了...self.df["total"] = self.df.英语 + self.df.体育 + self.df.军训 + self.df.数分 + self.df.高代 +se...

2019-11-07 20:25:01 9107

原创基于Python的大数据分析基础（四）---Pandas数据处理

5.Pandas数据处理 5.1 数据清洗 5.2 数据抽取 5.3 插入记录 5.4 修改记录 5.5 交换行和列 5.6 排名索引 5.7 数据合并5.1到5.7是在原来的pandas的基础上稍微深化了下，顺带复习。5.8之后将详细编写 5.8 数据计算 5.9 数据分组 5.10 数据处理# -*- ...

2019-11-06 20:20:45 8088

原创基于Python的大数据分析基础（三）--- Pandas 操作文件(csv,excel,txt,Mysql)

4.Pandas 读取并操作文件(csv,excel,txt,Mysql数据库) 4.1 CSV文件的读取# -*- coding: UTF-8 -*-'''@Author ：Jasonpandas 操作 csv 文件'''import pandas as pdimport csvdef write_to_csv(): df = pd.DataFrame(...

2019-11-06 14:19:58 9503

原创 pandas 之 to_csv 保存数据出现中文乱码解决办法

1.首先是没加编码，结果乱码了，然后添加encoding="utf-8"# -*- coding: UTF-8 -*-'''@Author ：Jasonpandas 操作 csv 文件'''import pandas as pdimport csvdef write_to_csv(): df = pd.DataFrame( {'province': [...

2019-11-06 12:08:35 8763

转载 Python实现十大经典排序算法

排序算法可以分为内部排序和外部排序，内部排序是数据记录在内存中进行排序，而外部排序是因排序的数据很大，一次不能容纳全部的排序记录，在排序过程中需要访问外存。常见的内部排序算法有：插入排序、希尔排序、选择排序、冒泡排序、归并排序、快速排序、堆排序、基数排序等。用一张图概括：关于时间复杂度：平方阶 (O(n2)) 排序各类简单排序：直接插入、直接选择和冒泡排序。线性...

2019-11-05 22:50:40 7222

原创 One_Hot(独热)编码分析

1.One-Hot编码 One-Hot编码，又称为一位有效编码，主要是采用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。 One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后，每个整数值被表示为二进制向量，除了整数的索引之外，它都是零值，它被标记为1。2.One_Hot的产生在...

2019-11-05 14:49:29 7766

原创特征工程，字典特征提取

1.常用数据结构组成特征值 + 目标值 2.特征工程定义: 特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程，从而提高了对未知数据的模型准确性目的：是为提高对位置数据的预测准确性意义：直接影响预测结果 3.Scikit-learn 工具介绍 Python 语言的机器学习的库先要有Numpy,pandas模块，之后...

2019-11-05 14:24:01 7262

原创手机端访问同一局域网电脑端项目

1.让手机和电脑处于同一个局域网 1. 首先将电脑连接的宽带(有线连接)断开，连接无线网(WIFI,HIFI等)； 2、例如，电脑连接的无线网网名是top05 3、那么手机也应该连接的无线网也是top305 ...

2019-11-05 10:37:31 11899

原创 git pull 更新错误解决办法

git pull时报错: error: Your local changes to the following files would be overwritten by merge: PersonalBlog/blog/.idea/workspace.xml Please commit yo...

2019-11-05 09:39:11 7633

原创仿站小工具的使用---扒取别人前端代码

1.下载仿站小工具：点击跳转仿站小工具下载链接2.查看配置，如果不需要改变路径也可不设置，输入网址输入保存目录，开扒 ...

2019-11-01 23:02:22 11800

原创 python中的线程进程

1.线程: 1.1线程的基本调用： 1）直接调用import threadingimport time'''直接调用'''def hello(name): print("Hello %s,"%name,"Welcome to my home!") time.sleep(10)if __name__ == "__main__": t1 = ...

2019-11-01 17:27:52 7048

原创解决 selenium登录知乎报错10001：请求参数异常

1.问题用selenium + 模拟登陆知乎时报错10001：请求参数异常，请升级客户端 1.2.分析原因具体原因是用了自动化测试工具，通过js代码还是能识别出来的，例如你在用了自动化测试工具的控制台输入window.navigator.webdriver结果返回了true,说明人家已经识别到你使用了自动化工具...

2019-11-01 15:49:25 16495 8

原创基于Python的大数据分析基础（二）--- Pandas及其主要数据结构

1.Pandas简介Pandas是一个Python包，提供快速、灵活和富有表现力的数据结构，使关联或标记数据的使用既简单又直观。它旨在成为Python中进行实际，真实世界数据分析的基础高级构建块。此次外还有更广泛的目标，即称为任何语言中最强大，最灵活的开源数据分析/操作工具。适合许多不同类型的数据具有异构类型列的表格数据，如SQL表或Excel表有序和无序的时间序列数据具有...

2019-11-01 15:08:22 7571

原创 Django框架杂记---持续更新

1.获取def A(request) 中request携带了那些信息:tuple_dict = request.META.items() # 将字典转换成可遍历的元组。for k, v in tuple_dict: print(k,v) eg:获取访问用户的ip： if 'HTTP_X_FORWARDED_FOR' in r...

2019-11-01 14:31:48 7069

原创基于Python的大数据分析基础（一）---- NumPy

1.NumPy简介及其使用NumPy是一个功能强大的Python库，主要用于对多维数组执行计算,允许更高级的数据操作和数学计算。它包括数学、逻辑、数组形状变换、排序、选择、I/O 、离散傅立叶变换、基本线性代数、基本统计运算、随机模拟等等。机器学习模型：在编写机器学习算法时，需要对矩阵进行各种数值计算。例如矩阵乘法、换位、加法等。NumPy提供了一个非常好的库，用于简单(在编写代码...

2019-11-01 14:17:53 7632

郑德帅