- 博客(10)
- 收藏
- 关注
原创 pandas模块--Series数据与DataFrame数据
pandas模块是python用于数据导入与整理的模块,对数据挖掘前期数据的处理工作十分有用。pandas模块的数据结构主要有两种:1.Series2.DataFrameSeries注:以下的所有pandas都简称为pd(import pandas as pd)介绍:series结构是一个一维的标签矩阵,类似于python里面的字典key-value结构。常用方法:创建Ser...
2019-02-27 16:57:45 441
原创 python制作前端页面模块--Flask模块
什么是Flask?Flask是一个web框架,也就是说web为你提供工具,库和技术来允许你构建一个web应用程序。这个web应用程序可以是一些web页面、博客、wiki、基于web的日历应用或商业网站。Flask属于微框架这一类别,微框架通常是很小且不依赖外部库的框架。优点是框架很轻量,更新时依赖少,并且专注安全方面的bug,缺点是,你不得不自己做更多的工作,或通过添加插件增加自己的依赖列表。...
2019-02-27 16:57:24 4716
原创 python--numpy模块
什么是numpy?快速,方便的科学计算基础库(主要是数值的计算,多维数组的计算)多维数组轴的理解:0轴,1轴,2轴一维数组:[1 , 2 , 3 , 4] -----只有0轴二维数组:[[1 , 2 , 3 , 4] , [1, 2 , 3 , 4]] ------0轴和1轴(横向和纵向)注: 下面的所有np都为numpy,import numpy as np1.numpy中如何创...
2019-02-23 15:42:37 377
原创 python数据整理-百度开源的绘图工具echarts
echarts是一款基于HTML5的图形库,创建图表非常简单快捷,而且它是由百度团队的项目,一直在保持更新,目前最新的版本为4.0,这个库中的项目文档比较详细,而且图形非常丰富,方便切换,语言全中文也比较好理解。图形全部为可交互式的,方便观察于分析。例子from pyecharts import BarmovieName = ["战狼2","速度","功夫瑜伽","西游伏妖篇","变形...
2019-02-23 11:56:33 737
原创 python数据整理--绘图工具matplotlib
1. matplotlib是一种python底层的绘图工具。2. matplotlib的基本要点:(1). 如何设置图片的大小;(2). 如何保存到本地;(3). x轴和y轴的描述信息;(4). 中文显示乱码问题;(5). 调整x轴和y轴的刻度;(6). x轴的刻度信息过长,如何调整?(7). 标记最高点;...
2019-02-23 11:04:17 576
原创 爬虫框架(scrapy架构)
1.scrapy架构流程:scrapy主要包括了以下组件:1.)引擎(scrapy):用来处理整个系统的数据流,触发事务(框架核心)2.)调度器(Scheduler):用来接受引擎发过来的请求,压入队列中,并在引擎再次请求的时候返回,可以想象成一个url(抓取网页的网址或者说链接)的优先队列,由它来决定下一个要抓取的网址是什么,同时去除重复的网址。3.)下载器(Downloader):用...
2019-02-20 16:51:15 3197 3
原创 词云分析wordcloud
jieba模块:用来切割中文的模块pillow:python3中用来专门处理图像的模块import reimport jiebafrom PIL import Imagefrom wordcloud import wordcloudimport numpy as npdef gen_wordcloud(text, filename):#1). 强调分割中有问题的词,默认分割结果...
2019-02-20 15:01:07 411
原创 csv格式存储与xpath解析页面
csv格式存储1.什么是csv格式逗号分隔值(Comma-Separated Values,CSV),其文件以纯文本形式存储表格数据(数字和文本),文件的每一行都是一个数据记录。每个记录由一个或多个字段组成,用逗号分隔。因为分隔字符也可以不是逗号,有时也称为字符分隔值。csv文件格式是一种通用的电子表格和数据库导入导出格式。2.例子import csvwith open(‘doc/e...
2019-02-20 14:42:03 527
原创 中国大学排名定向爬虫
import requestsfrom bs4 import BeautifulSoup获取页面def get_content(url):try:user_agent=“Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.109 Safari/537.36...
2019-02-20 14:16:31 215
原创 爬虫之BS4模块
BS4模块简介Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为tiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编一下原始编码方式就可以了。bs4的四种对象BeautifulSoup对象Tag对象Tag就是html中的一...
2019-02-20 13:54:18 253
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人