自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(42)
  • 收藏
  • 关注

原创 pandas 数据筛选---isin(类似sql的in功能)str.contains(类似sql的like功能)

df的结构如下:筛选产品=‘结清’,注:一定要用 ‘==’,因为 '= '是判断内存地址的;多条件判断;条件与条件之间必须用 ‘()’ 小括号括起来,不然会报错没有小括号的报错形式如下:选取特定两列,用’[]‘方括号括起来:选取某列中包含多个字符,用isin(),注意isin( [] )括号里面是一个列表:.str.contains(’’)里面是字符串,用 “|” 可以进...

2020-04-09 14:39:27 2254 1

原创 python发邮件模板

代码模板# -*- coding: utf-8 -*-"""Created on Thu Apr 9 09:57:43 2020@author: Administrator"""from pyhive import prestoimport osimport pandas as pdimport warningsfrom smtplib import SMTP_SSLf...

2020-04-09 13:44:58 549

原创 python 用word模板自动生成报告

不啰嗦,直接进入正题,先放上结果:利用下面的模板自动生成报告篇:注:后面会详细讲解如何生成模板。如何生成模板:新建一个 docx 文件。2.代码部分import tushare as tsfrom datetime import dateimport jsonhq = ts.get_today_all()hq = hq[['code', 'name', 'cha...

2019-11-01 20:10:16 7669

原创 PythonDataFrame 改变字符类型

1.直接用astype 强制转换:for i in df.columns[1:]: df[i] = df[i].astype('float')2.用map 转换:df['应还笔数'].map(str)

2019-08-14 11:10:11 4164

原创 jupyter notebook 使用指南

Jupyter Notebook简介 Jupyter Notebook是一个开源的web应用程序,一个交互式笔记本,支持运行 40多种编程语言。它允许您创建和共享文档,包含代码,方程,可视化和叙事文本。 用途包括:数据清洗和转换,数值模拟,统计建模、数据可视化、机器学习等等。 支持以网页的形式分享,GitHub 中天然支持 Notebook 展示,也可以通过 nbview...

2019-08-09 23:19:26 181

原创 python发送邮件_并附邮件;报错:SMTPServerDisconnected: Connection unexpectedly closed

出现如上报错SMTPServerDisconnected: Connection unexpectedly closed,可能出现的原因有以下两点:1.没有设置发件人的SMTP服务器;2.发件人的SMTP服务器设置错误;例如 163 邮箱的 SMTP服务器为:‘smtp.163.com’;若你设成 ‘smtp.qq.com’ QQ邮箱的SMTP服务器的话肯定会报错;以下为发送表格,并设置相对...

2019-08-09 22:26:29 5643

原创 python p组内排序并标号

结果如下图所示:对data 新增一列 sort_num;sort_num这一列就是我们对【分案金额】的排序,从小到大data['sort_num'] = data['分案金额'].rank(ascending = 1, method = 'dense')这里有两个参数:ascending: 选择是升序还是降序排列method 这个参数很重要;如果出现相等,则序号一样,之后序号照常...

2019-08-05 21:11:31 1423

原创 python画图显示中文

------------------------显示中文---------------------------------#import seaborn as snsimport matplotlib as mplimport matplotlib.pyplot as pltmpl.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体m...

2019-08-05 19:57:12 5611 1

原创 python实现简单的聊天机器人

偶然间看到图灵的聊天机器人,今天借助图灵的借口,撩撩这个小可爱,哈哈哈哈,有兴趣的可以参考下面的代码:# -*- coding: utf-8 -*-"""Created on Sat Aug 3 16:25:26 2019@author: gongmingxian"""import requests, json, time, randomfeature_text = '''...

2019-08-03 16:50:55 1154

原创 python 获取PDF中文字(PDFminer)

对于可以解析成TXT 的PDF 来说是比较好处理的。安装需要的包pip install pdfminer具体步骤:1.open 以二进制的办法打开PDF 文件2.利用PDFParser为打开的文件创建一个pdf文档分析器3.创建一个PDF文档4. 连接分析器 与文档对象: parser.set_document(doc);doc.set_parser(parser)5. 提供初始...

2019-07-28 11:48:25 3534 1

原创 python正则表达式

看完Python核心编程后,对正则表达式做出的总结.1.核心函数和方法:上述较常用的函数有:re.findall() # 匹配出所有满足条件的re.search() # 只匹配一个满足条件的(从左到右)re.match() #从开头开始匹配一个满足条件的(从左到右)re.compile() # 编译成正则表达式模式,返回一个正则表达式对象re.I # 不区分大小写的匹配2. ...

2019-05-06 18:11:03 127

原创 数据分析思维

一、 问题分析的6部曲首先需要确定分析的目标、背景是什么?基于假定的目标,收集相关的数据,并初步确定分析的维度 和 指标。明确数据来源,是为了给自己的分析结论提高可信度。分析主要指标,定位问题,并通过不同维度下钻分析,聚焦问题点。确定分页展示的报告,该步骤的目的是为了确定最终的分析思路及讲故事的逻辑顺序,尽量能使自己的故事更加连贯和有逻辑。为每一个分页做出总结性的结论。并给出做种的总结...

2019-05-06 11:36:31 220

原创 Python 列显示不完全问题

使用pandas 过程中应该有很多人有我一样的困扰,每次打印数据的时候都只显示一部分,如下:那么,如何显示全部列的数据呢。以下代码可以解决我们的困扰import pandas as pd# 显示所有列pd.set_option('display.max_columns', None)# 显示所有行pd.set_option('display.max_rows', None)设置...

2019-04-09 11:17:00 7502

原创 基于单层决策树下 adaboost算法的实现代码

本文采用的数据是 Python 数据分析实战中的数据 ‘horseColicTest2.txt’,网上都可以找到数据文件,若找不到可以私信我发给你们。from numpy import *def loadSimpData(): datMat = matrix([[ 1. , 2.1], [ 2. , 1.1], [ 1.3, 1. ], ...

2019-03-18 14:11:57 424

原创 微信sougo中 风景关键字搜索 文章爬取

####config 文件的参数#mongodb的参数MONGO_URL = 'localhost'MONGO_DB = 'weixin'MONGO_TABLE = 'article_data'POOL_PROXY_URL = 'http://127.0.0.1:5000/get' # 初始化代理KEYWORDS= '风景' # 搜索的内容base_url = 'https:...

2019-03-13 17:49:12 660 1

原创 Python --爬虫 头条街拍图片爬取

分析逻辑基本和前面的类似,只是这次将数据源存入mogodb中。具体实现代码如下:import requestsfrom requests.exceptions import RequestException #requests请求时错误类型from urllib.parse import urlencodeimport json #json解析from bs4 import Beau...

2019-03-13 17:43:29 139

原创 Python画图

import pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport numpy as nptips = sns.load_dataset("tips")tips.head() total_bill tip sex ...

2019-03-11 14:05:22 726

原创 通过PYTHON 将CSV 文件导入到MySQL 数据库

主要思路:将我csv数据一行一行读入到Python中,然后用insert 语句逐条插入到数据库中,以下是一个简单的列子数据文件t.csv:bid,bid_type未发布,0正招标,1拒绝发布,2满标,3通过,4拒绝满标,5流标,6退标,7正在担保,8已签约,9已签约满标拒绝,10待审核,20审核拒绝,21理财计划收集标,11import pymysqlco...

2019-03-06 17:45:20 6498 2

原创 python LeetCode 题库 (不定时更新)

(简单)给定一个大小为 n 的数组,找到其中的众数。众数是指在数组中出现次数大于 ⌊ n/2 ⌋ 的元素。你可以假设数组是非空的,并且给定的数组总是存在众数。示例 1:输入: [3,2,3]输出: 3示例 2:输入: [2,2,1,1,1,2,2]输出: 2answer:class Solution(object): def majorityElement(self,...

2019-02-28 18:17:18 678

原创 用Python发送邮件:SMTPAuthenticationError: (550, b’User has no permission’)

在学习的过程中遇到一些问题:未设置客户端授权密码出现的报错: SMTPAuthenticationError: (550, b’User has no permission’)该问题是由于未设置授权密码出错,具体解决办法如下:改好之后运行以下代码即可:import smtplibfrom email.mime.text import MIMETextfrom email.head...

2019-01-03 11:52:13 11668 3

原创 Python实现adaboost 算法+简单的注释

from numpy import *def loadSimpData(): datMat = matrix([[1., 2.1], [2., 1.1], [1.3, 1.], [1.1, 1.1], [2., 1.]...

2018-12-28 09:17:39 704

原创 使用Python实现LR算法_ RuntimeWarning: overflow encountered in exp问题解决方案

import numpy as npfilepath = r'C:\Users\Administrator\Desktop\ML\machinelearninginaction-master\machinelearninginaction-master\Ch05'def load_dataset(): data_mat = [] label_mat = [] fr =...

2018-12-20 16:47:08 11315

原创 KNN算法实例讲解

KNN 算法优缺点:优点:精度高,对异常值不敏感缺点:计算复杂度高,空间复杂度高使用数据范围:数值型和标称型有标签的分类算法:即输入一个无标签的数据系列,与有标签的现有数据属性进行对比,算法提取样本集中特征最相似的K个分类标签,最后选择K个相似数据中出现次数最多的分类。import numpy as npimport matplotlib.pyplot as plt# 创建训练集...

2018-12-18 09:57:23 10253

原创 爬取马蜂窝景点的数据

# -*- coding: utf-8 -*-import requestsfrom requests import RequestExceptionimport refrom pyquery import PyQuery as pqheaders = { 'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build...

2018-12-13 15:55:16 2784

原创 使用代理池爬取微信文章(pyquery+requests+mongoDb)

在看本文之前需要了解有关代理吃维护的知识。若不清楚如何维护代理池,可参考:https://github.com/Germey/ProxyPool但是在用的过程中发现该方法代理池里面的代理质量不是很好,经常会出现代理无效的情况,若大家有更好的方法,欢迎评论留言告知,感谢!############配置文件config.py#mongodb的参数MONGO_URL = 'localhost'...

2018-12-10 17:53:07 579

原创 Python 爬虫练习--- requests+beautifulSoup+re

爬取某互联网公司网站的投资产品信息:https://member.niwodai.com/portal/inteBid/inteBidPage.do首先解析网站结构:经过上述的网页源代码解析,下面是是实现的具体步骤:import requestsfrom requests import RequestExceptionimport reheaders = {'User-Agent...

2018-12-06 16:37:23 544 1

原创 Python 爬取今日头条街拍照片 requests+BeautifulSoup+MongoDB

使用ajax请求抓取今日头条街拍照片的数据。import requestsfrom requests.exceptions import RequestExceptionfrom urllib.parse import urlencodeimport jsonfrom bs4 import BeautifulSoupimport reimport pymongofrom hash...

2018-12-04 13:31:20 227

原创 python爬虫 爬取猫眼top100

import requestsfrom requests.exceptions import RequestExceptionimport redef get_one_page(url): try: headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537....

2018-12-01 21:02:17 399

原创 Python beautifulsoup库实践

关于安装:在cmd命令行直接输入: pip install bs4关于四个常用的解析库:关于实践:from bs4 import BeautifulSoup as bshtml ='''<div class="prolistMsg pad_t20 clearfix"> <a href="https://member.niwodai.

2018-11-30 14:18:47 7975

原创 爬虫笔记

# -*- coding: utf-8 -*-"""Created on Tue Nov 27 09:25:45 2018@author: Administrator"""from urllib import request#直接用request方法读取网站url = 'http://www.baidu.com'respo = request.urlopen(u

2018-11-29 18:00:00 191

原创 python中爬虫相关包的安装方法

urllibrerequestrequestsseleniumchromedriverphantomjslxmlbeautifulsouppyquerypymysqlpymongoredisflaskdjangojupyter目前就收到到这么多,后续有新增的再来补充

2018-11-26 10:06:36 799

原创 Windows下配置MongoDB

MongoDB 的下载地址: https://www.mongodb.com/download-center/community下载好之后,来到bin文件夹下---->按住《shift + 鼠标右键》----> 在此处选择PowerShell打开---->进入到Windows Shell 界面—> 输入指令: .\mongod --dbpath D:\

2018-11-25 15:39:07 111

原创 FP-growth 机器学习实战源代码,及文中出现报错的修改批注。

原文中更改的两个地方第一处报错: for k in headerTable.keys(): #remove items not meeting minSup if headerTable[k] < minSup: del(headerTable[k])出现如下错误:TypeError: '<' not supported be...

2018-09-26 10:54:56 773

原创 Apriori 算法进行关联分析 in python

机器学习实战原文代码加个人注释。书中有部分代码在python3.0中不适用,本文均已改正。# -*- coding: utf-8 -*-"""Created on Sun Sep 16 16:00:29 2018@author: Administrator"""def loadDataSet(): return [[1,3,4]

2018-09-16 21:36:49 226

原创 常见图形:(箱线图,柱状图,散点图,折线图...)searborn+ matplotlib

# -*- coding: utf-8 -*-import seaborn as snsimport numpy as np#------------------------显示中文---------------------------------#import matplotlib as mplmpl.rcParams['font.sans-serif'] = ['SimHei']...

2018-09-12 15:08:11 2589

原创 Kaggle比赛赛题《Titanic---Logistic Regression》

过程都在代码里:# -*- coding: utf-8 -*-import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snstrain = pd.read_csv(r'...\train.csv')test = pd.read_csv(r'...\test.csv...

2018-09-11 11:37:01 578

原创 Python seaborn 画图

以下对seanborn 画图简单的介绍。多多练习。import seaborn as snsimport numpy as npsns.set_style("whitegrid")tips = sns.load_dataset("tips")tips#绘制箱线图ax = sns.boxplot(x = tips['total_bill'])#绘制竖着放的箱线图,即把x 和 y...

2018-09-10 17:43:42 1076

原创 SMO完整版(包含训练数据)

'''#######********************************Non-Kernel VErsions below'''#######********************************class optStruct: """ Function: 存放运算中重要的值 Input: dataMatIn:数据集 ...

2018-09-07 14:55:34 1217 2

原创 decision Tree (ID3 , C4.5, CART)

以下代码存在问题,具体问题还没找出.# -*- coding: utf-8 -*-"""Created on Wed Sep 5 09:37:02 2018@author: Administrator""&a

2018-09-05 18:06:55 192

原创 KNN机器学习实战(sklearn)(包含训练数据)

本文直接给出sklearn里面KNN 算法的用法。具体实现过程如下:import numpy as npfrom sklearn import datasetsimport operatorfrom sklearn import neighborsimport sklearn.model_selection as msdigits = datasets.load_digits()...

2018-09-04 19:59:14 2858

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除