- 博客(16)
- 收藏
- 关注
原创 Tableau进行分类统计操作
Tableau 是一款帮助任何人快速分析、可视化并分享信息的数据分析工具。我们现有一个网游数据,题目如下:以周为单位,列出随着开服到第十三周的付费变化,并可以通过选择大r、中r、小r、全体来查看对应的随时间付费情况以周为单位,列出所有大r随着开服时间,每种礼包的购买金额情况。(可以通过选择不同的大r名字切换每个大r的具体购买情况)我们利用tableau可以进行快速的可视化操作首先我们筛选...
2020-03-28 22:12:23 7686
原创 利用jieba分词进行关键字提取生成词云图
为了更加直观分析一些岗位要求,我们可以利用jieba分词技术对岗位要求内容进行关键字提取,并通过词云技术进行渲染展示首先我们将sql文件转化成Excel文件import pandas as pdimport sqlite3conn = sqlite3.connect("recruit.db")df = pd.read_sql("select * from recruit",conn)d...
2020-03-27 21:21:53 2414
原创 使用echarts可视化分析数据:职位分布情况
ECharts 是一个使用 JavaScript 实现的开源可视化库,涵盖各行业图表,满足各种需求。官网是http://pyecharts.org快速建立图表在官网中我们找到gallery模板,选择合适的模板代码from pyecharts import options as optsfrom pyecharts.charts import Piefrom pyecharts.fake...
2020-03-26 21:55:41 771
原创 pandas分析Excel文件:游戏订单查询
pandas对多种数据具有强大的分析处理功能,现以一个游戏充值数据Excel表进行介绍如何进行分析题目如下:1.以周为单位,列出随着开服到第十三周的付费变化,并可以通过选择大r、中r、小r、全体来查看对应的随时间付费情况2.以周为单位,列出所有大r随着开服时间,每种礼包的购买金额情况。(可以通过选择不同的大r名字切换每个大r的具体购买情况)3.列出购买总额最高的10种礼包,并作出大r、中r...
2020-03-26 13:09:23 405
原创 pandas分析sql文件:职位分布情况
pandas对多种数据具有强大的分析处理功能,现以一个sql招聘数据进行介绍如何进行分析职业分布情况题目如下:1.统计不同学历的职位分布2.统计不同学历下薪资待遇3.统计python不同就业方向的分布(web,爬虫,数据分析首先我们连接上sql并创建DataFrame对象import pandas as pdimport sqlite3conn = sqlite3.connect...
2020-03-26 08:09:04 518
原创 数据分析pandas库使用方法
pandas是专门分析数据的一个开源python库。pandas是做统计分析和决策的一个基础工具,下从安装及基本使用进行说明:pandas安装先安装Anaconda然后输入:conda install pandas我们可以在cmd终端输入如下命令进行查看及更新:conda list pandasconda upgrade pandas使用pip安装pip install...
2020-03-25 08:11:27 229
原创 pygame写一个简单播放器
pygame是python的一个开发游戏音频功能的一个强大安装库,笔者无意翻到之前写的一个简单播放器,废话不说直接上代码:"""导入所需要的模块"""import pygame,sys,re,timefrom pygame.locals import *import os"""初始化数据"""pygame.init()pygame.font.init()font = pyga...
2020-03-23 21:14:01 696
原创 两个小例子学数据分析numpy模块
NumPy系统是Python的一种开源的数值计算扩展。在数据分析中是一种常用的python工具安装很简单命令如下pip install numpy 有时候会遇到安装出错的问题,建议更新pip或者安装vc++例子1求两个人的购买相似度zhangsan = np.array([ 0, 1, 1, 0, 0, 0, 0])lisi = np.array([ 0, 0, 0, 0, 0,...
2020-03-23 20:23:48 170
原创 Ubuntu环境下celery使用配置
Pycharm配置环境安装pip install celery[redis]redisa安装及常用命令redis: 1. wget -c 软件包 2.解压 mv 软件包 /usr/local/redis 3.cd /usr/local/redis 4. make install 5./usr/local/redis/src/redis-server /usr/...
2020-03-22 21:29:34 1188 1
原创 以远程服务器为例编写Scrapy-Redis分布式爬虫
Scrapy是一个框架,他本身不支持分布式。此时我们需要借助一个组件Scrapy-Redis,使得爬虫可以进行分布式,可以充分利用多个ip或者更多宽带来提高爬取效率以一个房天下爬虫为例sider代码如下:# -*- coding: utf-8 -*-import scrapyimport refrom soufang.items import NewHouseItem, EsfHo...
2020-03-20 22:22:55 242
原创 使用XPath解析库定位提取网页代码节点
在爬虫过程中使用正则表达式容易出错,对于网页的节点我们可以使用xpath更方便地定位节点XPath管网https://www.w3.org/TR/xpath/常用规则表达式描述nodename选取此节点的所有子节点/从当前节点选取直接子节点//从当前节点选取子孙节点.选取当前节点…选取当前节点的父节点@选取属性属性匹配...
2020-03-19 23:40:38 794
原创 scrapy爬取猫眼电影信息
scrapy是一个优秀的爬虫框架,可以非常直观规整的进行数据爬取。下面以爬取猫眼电影信息为例:首先我们我们需要建立一个scrapy项目:在项目目录下cmd窗口输入:scrapy startproject maoyan创建一个maoyan爬虫项目:接着我们进入maoyan项目目录:然后我们创建一个spider:scrapy genspider maoyan_spider maoy...
2020-03-18 22:06:44 1350 4
原创 Windows条件下scrapy安装
Scrapy`把一些基础的东西封装好了,在他上面写爬虫可以变的更加的高效(爬取效率和开发效率),下面简单介绍一下Windows环境下scrapy的安装方法首先我们打开python3对应的虚拟环境lsvirtualenv查看虚拟环境workon+虚拟环境名进入虚拟环境cd virtualenvpip install pypiwin32然后我们需要安装Twisted首先我们需要手动下载...
2020-03-16 22:26:52 334
原创 python正则中的贪婪匹配与非贪婪匹配
正则表达式是处理字符串的强大工具,它有自己的特定语法结构,其中常用的贪婪匹配与非贪婪匹配是一个难点,下面以代码为例进行解释说明请看下面这个例子我们想获取字符串中间的数字,中间写的(\d+),数字两边用.*替代,看看运行结果。content = 'Hello 1234567 World_This is a Regex Demo'result = re.match('^He.*(\d+).*D...
2020-03-15 00:17:49 383
原创 python3.7与python2.7双环境安装及配置
目前主流爬虫都是基于python27环境下运行,但是项目开发基本上用python3以上版本,现对于双环境安装进行详细说明首先我们安装python2.71.百度搜索Python,找到Python官网,点击进入https://www.python.org/2.点击Python官网的Downloads,然后在下拉菜单中点Windows,进入版本选择页面3.进入版本选择页面,可以在最上面看到有Py...
2020-03-09 20:38:34 866
原创 nvm配置前端开发环境
nvm(Node Version Manager)是一个用来管理node版本的工具。我们之所以需要使用node,是因为我们需要使用node中的npm(Node Package Manager),使用npm的目的是为了能够方便的管理一些前端开发的包!nvm`的安装非常简单,步骤如下:1. 到这个链接下载nvm的安装包:https://github.com/coreybutler/nvm-windo...
2020-03-03 11:46:53 325
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人