Leon_Kbl-CSDN博客

原创安装jieba库的解决办法及简单使用

由于学习过程中需要安装jieba库，然后就按老方法打开黑窗口，pip install jieba；可是它就会给我出现这样的错误：然后你可以使用国内镜像下载快速方便，如下:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba简单举例：import jiebacontent='我和我的祖国'con=jieba....

2019-09-29 15:35:24 14039 6

原创数组转置和换轴

T转置和transpose()方法转置好理解，今天初次接触transpose方法有点懵，百度了一番有点领悟，就写写。直接实例分析。arr=np.arange(32).reshape(8,4)reshape转型结果： array([[ 0, 1, 2, 3], [ 4, 5, 6, 7], [ 8, 9, 10, 11], [12,...

2019-09-17 21:14:54 602

原创利用百度AI简单实验人脸检测

首先我们需要打开百度AI,我们需要复制API Key 和Secret Key复制代码进行修改修改后的代码，得到access_tokenimport requestsimport json client_id 为官网获取的AK， client_secret 为官网获取的SKrequest_url= 'https://aip.baidubce.com/oauth/2.0/to...

2019-09-10 13:19:16 1387

原创 Anaconda创建python新环境

创建python环境conda create -n testpython（环境名字） python=3.7（版本号）conda info --env查看到所有python环境，‘*’的代表当前环境：切换到新的环境删除py37 ： conda remove -n py37 --all删除之后在查看已经被删除。创建新环境里面的包需要重新配置。配置pycharm接下来我们配置把...

2019-09-07 18:43:32 8151

原创 Anaconda安装及多个原有的包打包成列表进行安装下载

Anaconda下载地址下载python3.7版本下载之后会得到这个安装包进行安装这里我选择的是个人，因为我仅有一台电脑工作可以更改路径，但要记得安装到哪，一会儿配置环境需要找到它点击Install安装完之后，输入conda --version检测是否已成功配置环境变量找到我的电脑，右键点击属性，就会得到下图。path中添加这三个路径，这个路径就是我们在上面...

2019-09-07 12:46:28 2315

原创数据分析（十一）之lambda函数应用三元判断

电视剧网播量数据分析解释一下Python中的三元运算[on true] if [expression] else [on false]如果表达式为True，就执行[on true]中的语句。否则，就执行[on false]中的语句a,b=2,3min=a if a<b else bmin部分数据结构图import numpy as npimport pandas as ...

2019-08-10 19:59:26 2187

原创 hdfs中datanode和namenode的坑

在聊心酸史之前，先铺垫一下问题的由来：本来就是简单的使用简单操作文件到hdfs中，同样的代码别的同学都好使，而我的不行，代码如下：#谨记： C:\Windows\System32\drivers\etc\hosts做ip映射，否则连接不上from hdfs.client import Client#关于python操作hdfs的API可以查看官网:#https://hdfscli.rea...

2019-08-08 13:46:14 2897 2

原创数据分析处理（十）之囊中取物

取出前十条京东超市热评度的数据并绘图表格样本import numpy as npimport pandas as pdfrom matplotlib import pyplot as pltimport replt.rcParams[‘font.sans-serif’]=[‘SimHei’] #中文data=pd.read_excel(‘年货.xlsx’)data1=data[...

2019-08-05 20:21:35 527

转载 pandas常用函数

参考链接：http://blog.sina.com.cn/s/blog_77f476ef0102xid5.html1 import语句2 文件读取3 数据预处理4 数据筛选5 数据运算与排序6 数学统计1 import语句import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport d...

2019-08-04 19:47:48 306

原创数据分析处理（九）之口红

模拟自练数据分析 1、统计出防晒的产品保质期3年及以上且质量分高于4.55的前十数据,价格排序,绘图X轴为店名，Y轴为价格 2、绘制柱状图，X轴为各个国家，Y轴为只适合女的产品总数量。3、哪个国家的不同店名数量最高前十名绘图X为国家，Y为国家对应的店铺数量4、以不同人群分组，得出对应分数量组下不同功效的数量，以数量降序排列，取出前五绘制饼状图。5、取出总销量前10的产品，将其质量分和服...

2019-08-04 10:01:12 4871 1

原创时间序列之重采样引入

数据重采样时间数据由一个频率转换到另一个频率降采样升采样生成一条带随机值的时间序列import numpy as npimport pandas as pddate_index=pd.date_range('20190701',periods=12) #periods区间data_series=pd.Series(index=date_index,data=np.arange(...

2019-08-02 09:11:34 676

原创 pandas子图绘制及简单案例实践

参考：matplotlib绘制多子图subplots()方法快速绘制subplots()方法快速的创建多子图环境，并返回一个包含子图的Numpy数组fig, ax = plt.subplots(2,3,sharex=‘col’, sharey=‘row’)通过sharex和sharey参数，自动地去掉了网格内部子图的坐标刻度等内容，实现共享，让图形看起来更整齐整洁。元数据简略数据...

2019-08-01 22:16:06 6716

用pandas中的rolling函数计算时间窗口数据pandas.DataFrame.rolling参数详解pandas中提供了pandas.DataFrame.rolling这个函数来实现滑动窗口值计算，下面是这个函数的原型：DataFrame.rolling(window,min_periods=None,center=False,win_type=None,on=None, axis=...

2019-08-01 19:54:29 804

原创数据分析处理（七）

一天什么时间下单最多import pandas as pd #导入pandas用于表格操作import xlrd #导入xlrd用于获取一个表格里多个sheetfrom matplotlib import pyplot as plt#导入pyplot用于绘图from datetime import datetime as dt# 解决中文乱码问题#sans-serif就是无衬线字...

2019-07-31 22:07:15 555

原创数据分析处理（八）

整个月中某天前十个菜品的数量import numpy as npimport pandas as pd #导入pandas用于表格操作import xlrd #导入xlrd用于获取一个表格里多个sheetfrom matplotlib import pyplot as plt#导入pyplot用于绘图from datetime import datetime as dt# 解决中...

2019-07-31 20:00:32 319

翻译 numpy中的asarray和array的区别

上课老师讲了把一个列表用array和ndarray转成矩阵，但是样式一模一样，但也没讲为什么？然后就只能靠自己无尽的网络探索元数据是列表转成ndarrayimport nuimport numpy as npdata1=[[1,1,1],[1,1,1],[1,1,1]]arr2=np.array(data1)arr3=np.asarray(data1)data1[1][1]=2pri...

2019-07-31 00:08:51 424 1

原创数据分析处理(三）

前十个花钱最多的用户IDjupyter导包import pandas as pd #导入pandas用于表格操作import xlrd #导入xlrd用于获取一个表格里多个sheetfrom matplotlib import pyplot as plt#导入pyplot用于绘图解决中文乱码问题#sans-serif就是无衬线字体，是一种通用字体族。#常见的无衬线字体有 Tre...

2019-07-31 00:05:46 433

原创数据分析处理（二）

取出前十下单id及数量jupyter导包import pandas as pd #导入pandas用于表格操作import xlrd #导入xlrd用于获取一个表格里多个sheetfrom matplotlib import pyplot as plt#导入pyplot用于绘图解决中文乱码问题#sans-serif就是无衬线字体，是一种通用字体族。#常见的无衬线字体有 Trebu...

2019-07-31 00:05:31 421

原创数据分析处理（一）

菜品数据分析绘图导包import numpy as npimport pandas as pd #导入pandas用于表格操作import xlrd #导入xlrd用于获取一个表格里多个sheetfrom matplotlib import pyplot as plt#导入pyplot用于绘图解决中文乱码问题#sans-serif就是无衬线字体，是一种通用字体族。#常见的无衬...

2019-07-31 00:05:14 2030

原创数据分析处理（四）

前十个吃饭最多的时间jupyter导包from matplotlib import pyplot as pltimport pandas as pd #导入pandas用于表格操作解决中文乱码问题#sans-serif就是无衬线字体，是一种通用字体族。#常见的无衬线字体有 Trebuchet MS, Tahoma, Verdana, Arial, Helvetica, 中文的幼圆、...

2019-07-31 00:03:07 313

原创数据分析处理（五）

ID点菜次数最多 import numpy as np import pandas as pd #导入pandas用于表格操作 import xlrd #导入xlrd用于获取一个表格里多个sheet from matplotlib import pyplot as plt#导入pyplot用于绘图 from datetime import datetime# 解决中文乱码问题...

2019-07-31 00:02:46 326

原创数据分析处理（六）

每日菜品总价格import numpy as npimport pandas as pd #导入pandas用于表格操作import xlrd #导入xlrd用于获取一个表格里多个sheetfrom matplotlib import pyplot as plt#导入pyplot用于绘图from datetime import datetime as dt# 解决中文乱码问题...

2019-07-31 00:01:58 312

原创 iloc与loc区别

iloc PK loc导入numpy，pandasimport numpy as npimport pandas as pd构建一个0,30左闭右开的偶数数组data=np.arange(0,30,2) #arange(起始，结束，相差)data类型ndarrayprint(type(data))<class 'numpy.ndarray'>reshape变...

2019-07-27 10:50:33 34343 6

原创 jupyter 简单安装及numpy简单使用

安装jupyterpip install jupyter 安装jupyter lab 引入 numpy简单使用**array矩阵**import numpy as npdata=np.array(['a','b',3,4,5])data1=np.array([1,2,3,4,5])print(data) #得到的是字符串构成的矩阵print(data1) #得到的是一...

2019-07-24 17:15:22 5127

原创正则简单用法

re的简单方法介绍及用法正则表达式：是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配re.compile函数：compile函数用于编译正则表达式，生成一个正则表达式对象，供match和search()这俩个函数使用# import re# ret1=re.compile(r"\d+").findall("hdf123123fdhg1235")# print(r...

2019-07-23 17:11:33 305

原创爬虫匹不到数据的坑

初级爬虫小结网络爬虫的概念：（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。爬虫爬取数据得原则：模拟浏览器进行访问网页获取数据，只要你伪装成浏览器足够像，就可以达到防反爬的目的。正则 lxml bs4区别：正则表达式和Lxml的运行时间都比...

2019-07-23 16:55:20 1064

原创正则匹配之提取字符串内容

提取字符串里的数字代码如下import restr1='abdb212jfd'str2=re.findall('db(.*?)j',str1) #括号内是要提取的内容print(str2[0])--->212str3=re.finditer('\d',str1)print(str3)----> <callable_iterator object at 0...

2019-07-23 08:53:01 2247

原创 xpath通过兄弟节点取数据

通过兄弟节点去查询其他节点今天我们简单说一下借助兄弟节点去查询其他节点的内容：今天拿到一个要匹配如下箭头所指内容（标题、日期、阅读次数、标签）：按照我的习惯我是先找它们共有的一个块区域：在匹配之前先简单聊一聊xpath:xpath匹配是按照树结构通过节点一层层的往下找。xpath语法XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。...

2019-07-22 20:04:25 2738

原创爬取数据乱码简单处理

多线程爬取笑话集快期末考试了，老师说要考多线程，上次刚好写了多线程爬取糗百，这次练手就想换一换网址，然后就选择了爬取笑话集，但发现了问题，它打印出来的编码我不认识使用下面代码：res=requests.get(url=new_url,headers=self.headers) content=res.textprint(content)得到数据库的内容乱码了：...

2019-07-21 14:05:56 887

原创 django scrapy交互简单实例

多页爬取365租房任务：爬取下图红色内容并展示出来。 &nb...

2019-07-20 12:30:00 1616

原创多线程中的一点知识记录

Python多线程与多进程中join()方法的效果是相同的。首先需要明确几个概念：**知识点一：**当一个进程启动之后，会默认产生一个主线程，因为线程是程序执行流的最小单元，当设置多线程时，主线程会创建多个子线程，在python中，默认情况下（其实就是setDaemon(False)），主线程执行完自己的任务以后，就退出了，此时子线程会继续执行自己的任务，直到自己的任务结束。知识点二：当...

2019-07-14 14:06:44 248

原创 python多线程爬取糗百

分析多线程爬取糗百为了加快爬取网站的效率，我们将使用多线程来爬取任务，我们最简单爬取数据大致思路可以分为三步：1.爬取数据2.解析数据3.保存数据在使用多线程时，我们就变成了多个线程爬取数据，解析数据。这样我们需要借助队列，并且上锁，来避免线程之间的恶意竞争资源。那么我们可以将思路步骤分为：1.爬取数据写入队列2.队列读取数据3.解析数据写入队列4.队列读取数据5.保存数...

2019-07-14 09:36:43 379

原创 Python 爬虫：scrapy 没有crawl 命令

scrapy 爬虫框架启用命令注意事项1.cd 到你指定的文件夹下；2.scrapy startproject Spider(项目名字：自定义)；3.cd Spider（cd到你创建的项目下);4.scrapy genspider example(爬虫.py的名字) example.com9(你要访问的域名，不要写http/https协议)；5.scrapy crawl example(...

2019-07-13 20:20:52 9561 1

原创 json的四个函数的区别

爬虫的过程中我们经常需要json和python字符串之间进行转换，在这里我们先来简单说一下json四个函数的作用。1. json.loads()把Json格式字符串解码转换成Python对象从json到python的类型转化对照如下： json数据自动按Unicode存储uDict= "{\"city\": \"\u4e0a\u6d77\", \"name\": \"\u9ad8\u6...

2019-07-10 18:53:51 445

原创入门爬虫之百度贴吧页面爬去

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...

2019-07-10 18:11:56 281

原创 Flask中简单的增删改查应用之图书馆

配置文件，连接数据库创建表，添加字段，引入模块创建首页，添加作者为添加作者做材料准备查看展示内容展示内容页面继承项编辑作者编辑作者页面准备材料，删除作者添加对应作者的书籍为添加书籍做准备查看书籍页面编辑书籍为编辑书籍做新的准备材料删除单条或多条书籍记录程序结束总结：整个过程无非就是四个过程：增删改查增:原来没有，准备一个新材料给它赋...

2019-05-12 11:13:04 629 1

原创 falsk引入并且在浏览器中显示九九乘法表

flask基本格式举例:这里需要用字符串的拼接，先给一个空的res，否则return只能返回最后一个值，用到字符串拼接，就可以把每一次返回的结果组合成一个九九乘法表整体，而修饰时需要用到html里的格式修饰.注意断行还是空列放在对应的循环下。这里有些地方没有对齐，需要用到判断，我们下次在讲同样也可以用列表推导式来做。这个我会在列表推导的内容中详细解释列表推导式。这里空格只能空一...

2019-04-27 11:08:00 341

原创 VUE路由简单含参跳转链接理解

作为一个初学者，要实现一项特指的内容跳转，比如点击国内新闻是国内新闻的内容，点击国外新闻是国外新闻的内容，这时我们在vue中就需要涉及到路由含参跳转，从而达到一一对应的信息匹配，下面我就写写初学者我的理解：绿色下划线na对应的是导入组件的名字，component中的na必须和import中的na一一对应,在保证俩者俩者相同的条件下，取名随心情。这里的ne是路由名称，n是跟随的参数，他们是new...

2019-04-27 10:05:40 553

空空如也

空空如也