自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 pandas模块--Series数据与DataFrame数据

pandas模块是python用于数据导入与整理的模块,对数据挖掘前期数据的处理工作十分有用。pandas模块的数据结构主要有两种:1.Series2.DataFrameSeries注:以下的所有pandas都简称为pd(import pandas as pd)介绍:series结构是一个一维的标签矩阵,类似于python里面的字典key-value结构。常用方法:创建Ser...

2019-02-27 16:57:45 441

原创 python制作前端页面模块--Flask模块

什么是Flask?Flask是一个web框架,也就是说web为你提供工具,库和技术来允许你构建一个web应用程序。这个web应用程序可以是一些web页面、博客、wiki、基于web的日历应用或商业网站。Flask属于微框架这一类别,微框架通常是很小且不依赖外部库的框架。优点是框架很轻量,更新时依赖少,并且专注安全方面的bug,缺点是,你不得不自己做更多的工作,或通过添加插件增加自己的依赖列表。...

2019-02-27 16:57:24 4716

原创 python--numpy模块

什么是numpy?快速,方便的科学计算基础库(主要是数值的计算,多维数组的计算)多维数组轴的理解:0轴,1轴,2轴一维数组:[1 , 2 , 3 , 4] -----只有0轴二维数组:[[1 , 2 , 3 , 4] , [1, 2 , 3 , 4]] ------0轴和1轴(横向和纵向)注: 下面的所有np都为numpy,import numpy as np1.numpy中如何创...

2019-02-23 15:42:37 377

原创 python数据整理-百度开源的绘图工具echarts

echarts是一款基于HTML5的图形库,创建图表非常简单快捷,而且它是由百度团队的项目,一直在保持更新,目前最新的版本为4.0,这个库中的项目文档比较详细,而且图形非常丰富,方便切换,语言全中文也比较好理解。图形全部为可交互式的,方便观察于分析。例子from pyecharts import BarmovieName = ["战狼2","速度","功夫瑜伽","西游伏妖篇","变形...

2019-02-23 11:56:33 737

原创 python数据整理--绘图工具matplotlib

1. matplotlib是一种python底层的绘图工具。2. matplotlib的基本要点:(1). 如何设置图片的大小;(2). 如何保存到本地;(3). x轴和y轴的描述信息;(4). 中文显示乱码问题;(5). 调整x轴和y轴的刻度;(6). x轴的刻度信息过长,如何调整?(7). 标记最高点;...

2019-02-23 11:04:17 576

原创 爬虫框架(scrapy架构)

1.scrapy架构流程:scrapy主要包括了以下组件:1.)引擎(scrapy):用来处理整个系统的数据流,触发事务(框架核心)2.)调度器(Scheduler):用来接受引擎发过来的请求,压入队列中,并在引擎再次请求的时候返回,可以想象成一个url(抓取网页的网址或者说链接)的优先队列,由它来决定下一个要抓取的网址是什么,同时去除重复的网址。3.)下载器(Downloader):用...

2019-02-20 16:51:15 3197 3

原创 词云分析wordcloud

jieba模块:用来切割中文的模块pillow:python3中用来专门处理图像的模块import reimport jiebafrom PIL import Imagefrom wordcloud import wordcloudimport numpy as npdef gen_wordcloud(text, filename):#1). 强调分割中有问题的词,默认分割结果...

2019-02-20 15:01:07 411

原创 csv格式存储与xpath解析页面

csv格式存储1.什么是csv格式逗号分隔值(Comma-Separated Values,CSV),其文件以纯文本形式存储表格数据(数字和文本),文件的每一行都是一个数据记录。每个记录由一个或多个字段组成,用逗号分隔。因为分隔字符也可以不是逗号,有时也称为字符分隔值。csv文件格式是一种通用的电子表格和数据库导入导出格式。2.例子import csvwith open(‘doc/e...

2019-02-20 14:42:03 527

原创 中国大学排名定向爬虫

import requestsfrom bs4 import BeautifulSoup获取页面def get_content(url):try:user_agent=“Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.109 Safari/537.36...

2019-02-20 14:16:31 215

原创 爬虫之BS4模块

BS4模块简介Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为tiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编一下原始编码方式就可以了。bs4的四种对象BeautifulSoup对象Tag对象Tag就是html中的一...

2019-02-20 13:54:18 253

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除