![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python
文章平均质量分 90
北山璎珞
私はこのjianghuが好き
展开
-
分类算法-朴素贝叶斯算法
一 朴素贝叶斯分类方法二 概率基础2.1 概率(Probability)定义概率定义为一件事情发生的可能性扔出一个硬币,结果头像朝上某天是晴天P(X) : 取值在[0, 1]2.2 女神是否喜欢计算案例2.3 条件概率与联合概率联合概率:包含多个条件,且所有条件同时成立的概率记作:P(A,B)特性:P(A, B) = P(A)P(B)条件概率:就是事件A在另外...原创 2020-03-14 21:21:32 · 288 阅读 · 0 评论 -
分类算法-模型选择与调优
一 交叉验证目的为了让被评估的模型更加准确可信二 交叉验证(cross validation)交叉验证:将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成5份,其中一份作为验证集。然后经过5次(组)的测试,每次都更换不同的验证集。即得到5组模型的结果,取平均值作为最终结果。又称5折交叉验证。2.1 分析三 超参数搜索-网格搜索(Grid Search)通常情况下,有很多参数是...原创 2020-03-14 20:13:08 · 1453 阅读 · 0 评论 -
分类算法 - K-近邻算法(附案例及测试数据)
一 定义如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。1.1 距离公式两个样本的距离可以通过如下公式计算,又叫欧式距离二 电影类型分析三 K-近邻算法APIsklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm=‘auto’)n_neigh...原创 2020-03-14 16:06:20 · 2120 阅读 · 0 评论 -
机器学习 - 分类算法
一 数据集1.1 数据集的划分机器学习一般的数据集会划分为两个部分:训练数据:用于训练,构建模型测试数据:在模型检验时使用,用于评估模型是否有效划分比例:训练集:70% 80% 75%测试集:30% 20% 30%APIsklearn.model_selection.train_test_split(arrays, *options)x 数据集的特征值y 数据集的...原创 2020-03-12 21:16:24 · 415 阅读 · 0 评论 -
机器学习-算法入门
一 机器学习算法类别1.1 按照学习方式分类监督学习(supervised learning)(预测)①定义:输入数据是由输入特征值和目标值所组成。函数的输出可以是一个连续的值(称为回归),或是输出是有限个离散值(称作分类)。②分类 k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络③回归 线性回归、岭回归④ 标注 隐马尔可夫模型 (不做要求)无监督学习(unsuper...原创 2020-03-08 20:52:54 · 232 阅读 · 0 评论 -
机器学习 - 特征选择及降维
一 特征选择1.1 定义数据中包含冗余或无关变量(或称特征、属性、指标等),旨在从原有特征中找出主要特征1.2 特征选择的方法1)Filter(过滤式)主要探究特征本身特点、特征与特征和目标值之间关联方差选择法:低方差特征过滤相关系数2) Embedded (嵌入式)算法自动选择特征(特征与目标值之间的关联)决策树:信息熵、信息增益正则化:L1、L2深度学习:卷积等1...原创 2020-03-08 20:52:45 · 974 阅读 · 1 评论 -
机器学习-特征工程
1、什么是特征工程1.1 特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。意义:会直接影响机器学习的效果数据集构成:特征值+目标值1.2 特征工程包含内容特征抽取特征预处理特征降维1.3 特征工程所需工具1) Scikit-learn对于 特征的处理 提供了强大的接口① Python语言的机器学习工具② Scikit-learn包...原创 2020-03-08 20:52:35 · 407 阅读 · 0 评论 -
Python机器学习入门
一 定义机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测二 为什么需要机器学习解放生产力:智能客服:不知疲倦24小时小时作业量化投资:避免更多的编写策略、交易人员医疗:帮助医生辅助医疗解决专业问题:ET医疗提供社会便利:杭州的城市大脑三 机器学习应用场景3.1 用在挖掘、预测领域:应用场景:店铺销量预测、量化投资、广告推荐、企业客户分类、SQL语句...原创 2020-03-08 20:52:25 · 226 阅读 · 1 评论 -
Python异常 与 模块
一 异常捕获try: xxxxexcept Exception as ex: print("出现如下异常%s" % ex) continue二 自定义异常class ShortInputException(Exception): '''自定义的异常类''' def __init__(self, length, atleast): #super()._...原创 2020-03-03 21:08:10 · 134 阅读 · 0 评论 -
python面向对象(总结)
一 基础1.1 demo:定义一个Hero类# class Hero: # 经典类(旧式类)定义形式# class Hero():class Hero(object): # 新式类定义形式 def info(self): print("英雄各有见,何必问出处。")说明:定义类时有2种形式:新式类和经典类,上面代码中的Hero为新式类,前两行注释部分则为...原创 2020-03-02 23:10:35 · 840 阅读 · 0 评论 -
python文件处理(总结)
一 txt文件1.1 txt文件读取 with open("11.txt", 'r') as file: for l in file: idnos.append(l.replace('\n','')) f.close() # 关闭文件,这个可以是个好习惯哦1.2 txt写入 不覆盖写入 ...原创 2020-03-02 21:53:34 · 346 阅读 · 0 评论 -
python基础学习(总结)
一 函数1.1 python函数(总结二 文件处理原创 2020-03-02 21:12:57 · 289 阅读 · 0 评论 -
python函数(总结)
一.拆包、交换变量的值1.1 对返回的数据直接拆包def get_my_info(): high = 178 weight = 100 age = 18 return high, weight, age# result = get_my_info()# print(result)my_high, my_weight, my_age = get_my_...原创 2020-03-02 21:10:46 · 223 阅读 · 0 评论 -
Python 词云
一 将词生成到图片上import PILimport requestsfrom lxml import etreeimport jiebaimport numpy as npimport matplotlib.pyplot as pltimport timefrom PIL import Imagefrom wordcloud import WordCloudif __n...原创 2020-02-18 18:22:43 · 359 阅读 · 0 评论 -
python数据分析 - 各种图
一 折线图1.1import matplotlib.pyplot as plt#折线图:通过传入的数据,在二维坐标系下形成点,再将这些点连接成线x = [1,5,4] #[x轴开始, x轴结束, x]y = [5,8,6] #[y轴开始, y轴结束, y]plt.plot(x,y) #三个节点[1, 5] [5, 8] [4, 6]plt.show()1.2import m...原创 2020-03-08 21:33:49 · 2488 阅读 · 0 评论 -
Python3爬取UN(联合国数据) api调用
# -*- coding=UTF-8 -*-import timeimport requestsimport reimport osfrom bs4 import BeautifulSoupfrom requests.exceptions import ConnectionError, ReadTimeoutimport csvimport jsonimport MySQLdb...原创 2020-04-16 20:56:10 · 1784 阅读 · 7 评论 -
Python3多个Excel写入同一个
# -*- coding=UTF-8 -*-import timeimport requestsimport reimport osfrom bs4 import BeautifulSoupfrom requests.exceptions import ConnectionError, ReadTimeoutimport csvdef doDown(): # 读取某个文件...原创 2020-03-03 21:09:26 · 574 阅读 · 0 评论 -
Python3使用代理爬取某网信息&含文件读写等(完整源码)
-- coding=utf-8 --import timeimport requestsimport reimport osfrom bs4 import BeautifulSoupfrom requests.exceptions import ConnectionError, ReadTimeoutimport csvurl=‘https://www.11467.com/shen...原创 2020-01-04 18:15:54 · 550 阅读 · 0 评论 -
Python3中matplotlib安装和使用
更新pip的版本,适合当前Python版本python -m pip install --upgrade pip安装matplotlib:python -m pip install matplotlib如果pip的版本不对,就会出现如下错误:C:\Users\25308>python -m pip install matplotlibCollecting matplotlib...原创 2019-12-28 21:40:39 · 4924 阅读 · 1 评论 -
jupyter notebook安装和使用(详情教程)
使用的是Python3.7版本1.安装执行命令:pip3 install jupyter安装后路径- > python安装目录 ->Scripts2.启动:jupyter notebook原创 2019-12-28 21:14:02 · 513 阅读 · 0 评论 -
Python3爬取某租房网数据并保存到Excel文件中(完整源码)
# coding:utf-8import requestsimport reimport randomfrom bs4 import BeautifulSoupfrom w3lib.html import remove_tagsimport csvuseragents = [ # 代理用户 "Mozilla/5.0 (Windows; U; Windows NT 5.2...原创 2019-12-28 17:21:05 · 1513 阅读 · 2 评论 -
Python3使用代理爬取某网文献摘要(完整源码)
1.连接下载.py用来获取当前年份的文章下载连接,并将连接读取到 c.txt中;注: 知网的文件连接 根据 年份 + 期数 + 第几个 就是拼接出具体某一篇文章的下载路径如:2019年第一期的第一篇文件链接为:https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CJFD&filename=YISY2019010012.摘要下载....原创 2019-12-28 17:18:43 · 1398 阅读 · 0 评论 -
Python3爬取某2020年展览数据并保存到Excel文件中(完整源码)
# -*- coding=UTF-8 -*-import timeimport requestsimport reimport osfrom bs4 import BeautifulSoupfrom requests.exceptions import ConnectionError, ReadTimeoutimport csv##headers = { ...原创 2019-12-28 17:00:13 · 1007 阅读 · 0 评论 -
Python对字符串的操作(大全)
1.字符串截取:1.1 从某个子字符串的位置截取:如:#上海新国际博览中心 乘车路线 全景地图上海新国际博览中心#截取后#上海新国际博览中心a='上海新国际博览中心 乘车路线 全景地图上海新国际博览中心'a[:a.index('乘车路线')]截取最后的部分:#主办单位:中国日用杂品工业协会;承办单位:北京汇捷通国际展览有限公司#截取后#北京汇捷通国际展览有限公司b='...原创 2020-03-03 21:10:11 · 554 阅读 · 0 评论 -
You should consider upgrading via the 'python -m pip install --upgrade pip' command
Command "python setup.py egg_info" failed with error code 1 in C:\Users\25308\AppData\Local\Temp\pycharm-packaging\pandas\You are using pip version 10.0.1, however version 19.3.1 is available.You sh...原创 2019-12-24 21:13:43 · 1860 阅读 · 0 评论 -
Python-Excel操作
一 . 两个Excel中字符集比对import xlrd# 打开execlprint('读取第一个Excel文件开始:')workbook2 = xlrd.open_workbook('a.xlsx')Data_sheet2 = workbook2.sheets()[0] # 通过索引获取第一个sheet的值print('第一个sheet的名字为:',Data_sheet2.nam...原创 2020-03-03 21:12:19 · 125 阅读 · 0 评论 -
Python通过代理爬取知网数据
# -*- coding=utf-8 -*-import timeimport datetimeimport requestsimport reimport osimport randomfrom bs4 import BeautifulSoupfrom requests.exceptions import ConnectionError, ReadTimeout##head...原创 2019-12-22 21:21:48 · 646 阅读 · 0 评论 -
Python爬取租房信息
# coding:utf-8import requestsimport reimport randomfrom bs4 import BeautifulSoupfrom w3lib.html import remove_tagsimport csvuseragents = [ # 代理用户 "Mozilla/5.0 (Windows; U; Windows NT 5.2...原创 2020-03-08 21:34:22 · 517 阅读 · 0 评论 -
Python3爬取meitulu(源码+详细注释)
-- coding=UTF-8 --import timeimport requestsimport reimport osfrom bs4 import BeautifulSoupfrom requests.exceptions import ConnectionError, ReadTimeouturl = ‘https://www.meitulu.com/rihan/’he...原创 2020-03-08 21:46:49 · 1732 阅读 · 0 评论 -
Python3爬取meizitu(详细源码+注释)
# -*- coding=utf-8 -*-'''人生苦短,我用Python'''import timeimport requestsimport reimport osfrom bs4 import BeautifulSoup##url = 'https://www.mzitu.com/all'headers = {'User-Agent': 'Mozilla/5.0 ...原创 2020-03-08 21:47:20 · 2949 阅读 · 0 评论 -
Linux云服务器-Python-3.6.2版本安装(详细教程)
1.卸载原有版本Pythonrpm -qa|grep python|xargs rpm -ev --allmatches --nodeps2.Python-3.6.2下载官网下载:https://www.python.org/downloads/source/Ctrl +F 搜索: 3.6.2点击:Download Gzipped source tarball3.编译安装:3.1...原创 2019-11-28 20:34:03 · 862 阅读 · 2 评论 -
Python执行遇到的问题(总结)
以下命令的执行,都是在python的安装目录下执行:即:xxx/Python/Python38/问题1:PS E:\xu> python .\sougou.py File ".\sougou.py", line 21SyntaxError: Non-UTF-8 code starting with '\xcb' in file .\sougou.py on line 21, bu...原创 2019-11-24 21:16:49 · 304 阅读 · 0 评论 -
抓包工具Fiddler在chrome中的使用
1.抓包工具下载:https://www.telerik.com/fiddler直接下载安装即可!2.fiddler设置:设置浏览器;忽略不信任的服务链接;添加证书;端口默认:8888配置后,重启软件,使配置生效!!3.chrome插件及配置4.测试浏览器打开网页,可以看到Fiddle中出现了抓取的链接:完!!!...原创 2019-11-18 22:24:46 · 8106 阅读 · 1 评论