shifanfashi-CSDN博客

原创 2020-09-06

CREATE TABLE TestScores(student_id INTEGER, subject VARCHAR(32) , score INTEGER, PRIMARY KEY(student_id, subject));INSERT INTO TestScores VALUES(100, '数学',100);INSERT INTO TestScores VALUES(100, '语文',80);INSERT INTO TestScores VALUES(100,

2020-09-06 17:59:08 370

原创 SQL之全外连接

全外连接是能够从这样两张内容不一致的表里，获取全部的信息。例如有两张表class-A和class-B，想得到C的结果。class-Aidname1张三2李四3美术院class-Bidname1张三2李四4经管院CidA_nameB_name1张三张三2李四李四3美术院4经管院SELECT COALESCE(A.id, B.id) AS id,

2020-09-01 20:50:58 5494

原创中国K12在线教育用户消费行为报告

一、背景阐述研究目的在线教育尤其是K12赛道在过去几年得以快速发展，但头部品牌的渗透率增长幅度尤其是在三四线城市一直不容乐观。而在2020年初，受新冠疫情影响，在线教育几乎深入全民适龄家庭：数据统计，全国两亿多中小学生完成触网学习，这使得K12在线教育接触并渗透到了中国更广泛的地区和家庭。面对不同的K12在线教育品牌以及行业内不同的教学模式，家长用户和学生用户的选择标准逐渐“严苛”。二、中国K12在线教育市场概况2.1 K12在线教育定义区别于传统教育的面对面教学形式，在线教育是以互联网为传

2020-07-29 22:27:24 4993

原创作业帮&小猿搜题竞品分析报告

竞品分析：一、体验环境设备型号：华为荣耀V9操作系统：EMUI 9.1.0体验时间：2020.7.2作业帮：12.12.2小猿搜题：10.8.0二、行业分析1. 市场背景目前国家选拔人才的主要方式是各类招录考试，因此对于学历制阶段的学生来说达到升学标准是实现国家选拔人才的主要途径，虽然升学的路径多重多样，但对于K12阶段的学生来说，通过中考，高考仍然是主要方式。当下的在线教育产品按照年龄段大致可以分为少儿培训、K12及成人培训，而在这其中，K12教育市场规模一直保持稳步增长，究竟是什

2020-07-03 18:03:18 7258

原创作业帮产品分析

作业帮产品分析本文将从如下方面分析：行业分析竞品分析用户价值分析商业价值分析产品迭代分析产品结构分析运营分析总结一、行业分析目前国家选拔人才的主要方式是各类招录考试，因此对于学历制阶段的学生来说达到升学标准是实现国家选拔人才的主要途径，虽然升学的路径多重多样，但对于K12阶段的学生来说，通过中考，高考仍然是主要方式。疫情期间，线下课程全部停摆，“停课不停学”的号召使在线教育领域得到了全国上下的共同关注。当下的在线教育产品按照年龄段大致可以分为少儿培训、K12及成人培训，而在这其

2020-07-02 15:24:39 11269

原创数据分析常用名词解释

数据分析常用的术语解释。按照以下三类进行汇总。1、互联网常用名词解释2、统计学名词解释3、数据分析名词解释一、互联网常用名词解释1、PV（Page View）页面浏览量指某段时间内访问网站或某一页面的用户的总数量，通常用来衡量一篇文章或一次活动带来的流量效果，也是评价网站日常流量数据的重要指标。PV可重复累计，以用户访问网站作为统计依据，用户每刷新一次即重新计算一次。2、UV（...

2020-01-09 09:13:32 5675

转载数据预处理

预处理数预处理数据的方法总结（使用sklearn-preprocessing）当我们拿到一批原始的数据首先要明确有多少特征，哪些是连续的，哪些是类别的。检查有没有缺失值，对确实的特征选择恰当方式进行弥补，使数据完整。对连续的数值型特征进行标准化，使得均值为0，方差为1。对类别型的特征进行one-hot编码。将需要转换成类别型数据的连续型数据进行二值化。为防止过拟合或者其他...

2020-01-06 15:30:50 486

原创 SQL各关键字执行顺序（MySQL）

SQL各个关键字的执行顺序:（8）SELECT（9）DISTINCT <select_list> （1）FROM <left_table>（3）<join_type> JOIN <right_table>（2）ON <join_condition>（4）WHERE <where_condition>（5）GRO...

2019-12-19 15:52:00 324

转载 python pandas解决数据中含有空格转换数据类型的问题to_numeric

在人工采集数据时，经常有可能把空值和空格混在一起，一般也注意不到在本来为空的单元格里加入了空格。这就给做数据处理的人带来了麻烦，因为空值和空格都是代表的无数据，而pandas中Series的方法notnull()会把有空格的数据也纳入进来，这样就不能完整地得到我们想要的数据了，这里给出一个简单的方法处理该问题。方法1：既然我们认为空值和空格都代表无数据，那么可以先得到这两种情况下的布尔数组。这...

2019-12-13 10:59:33 3194

转载 Fidder

Fiddler 教程 ...

2019-11-08 11:46:26 374

原创 flask框架上传文件

后台代码from flask import Flask, render_template, jsonify, requestfrom werkzeug.utils import secure_filenameimport osimport hex_to_bin as h2bapp = Flask(__name__)@app.route('/')def hello_world()...

2019-11-07 13:56:04 369

转载数据结构

数据结构一些概念数据结构就是研究数据的逻辑结构和物理结构以及它们之间相互关系，并对这种结构定义相应的运算，而且确保经过这些运算后所得到的新结构仍然是原来的结构类型。数据：所有能被输入到计算机中，且能被计算机处理的符号的集合。是计算机操作的对象的总称。数据元素：数据（集合）中的一个“个体”，数据及结构中讨论的基本单位数据项：数据的不可分割的最小单位。一个数据元素可由若干个数据项组...

2019-10-28 17:43:13 158

原创 flask框架写接口

#encoding: utf-8import structfrom flask import Flask, requestimport zlibfrom flask_restful import Api, Resource, reqparseimport osimport jsonimport pandas as pdapp = Flask(__name__)api = Api...

2019-10-24 13:12:02 1330

转载数据分析:附录B 更多关于IPython的内容

第2章中，我们学习了IPython shell和Jupyter notebook的基础。本章中，我们会探索IPython更深层次的功能，可以从控制台或在jupyter使用。B.1 使用命令历史Ipython维护了一个位于磁盘的小型数据库，用于保存执行的每条指令。它的用途有：只用最少的输入，就能搜索、补全和执行先前运行过的指令；在不同session间保存命令历史；将日志输入/输出历史到一...

2019-10-14 17:50:18 210

转载数据分析:附录A NumPy高级运用

在这篇附录中，我会深入NumPy库的数组计算。这会包括ndarray更内部的细节，和更高级的数组操作和算法。本章包括了一些杂乱的章节，不需要仔细研究。A.1 ndarray对象的内部机理NumPy的ndarray提供了一种将同质数据块（可以是连续或跨越）解释为多维数组对象的方式。正如你之前所看到的那样，数据类型（dtype）决定了数据的解释方式，比如浮点数、整数、布尔值等。ndarray如...

2019-10-14 17:49:19 230

转载利用python进行数据分析(第二版)_第十四章

本书正文的最后一章，我们来看一些真实世界的数据集。对于每个数据集，我们会用之前介绍的方法，从原始数据中提取有意义的内容。展示的方法适用于其它数据集，也包括你的。本章包含了一些各种各样的案例数据集，可以用来练习。案例数据集可以在Github仓库找到，见第一章。#14.1 来自Bitly的USA.gov数据2011年，URL缩短服务Bitly跟美国政府网站USA.gov合作，提供了一份从生成.g...

2019-10-12 09:17:12 1263

转载利用python进行数据分析(第二版)_第十三章

本书中，我已经介绍了Python数据分析的编程基础。因为数据分析师和科学家总是在数据规整和准备上花费大量时间，这本书的重点在于掌握这些功能。开发模型选用什么库取决于应用本身。许多统计问题可以用简单方法解决，比如普通的最小二乘回归，其它问题可能需要复杂的机器学习方法。幸运的是，Python已经成为了运用这些分析方法的语言之一，因此读完此书，你可以探索许多工具。本章中，我会回顾一些pandas的特...

2019-10-12 09:16:14 441

转载利用python进行数据分析(第二版)_第十二章

前面的章节关注于不同类型的数据规整流程和NumPy、pandas与其它库的特点。随着时间的发展，pandas发展出了更多适合高级用户的功能。本章就要深入学习pandas的高级功能。12.1 分类数据这一节介绍的是pandas的分类类型。我会向你展示通过使用它，提高性能和内存的使用率。我还会介绍一些在统计和机器学习中使用分类数据的工具。背景和目的表中的一列通常会有重复的包含不同值的小集合的情...

2019-10-12 09:15:24 162

转载利用python进行数据分析(第二版)_第十一章

时间序列（time series）数据是一种重要的结构化数据形式，应用于多个领域，包括金融学、经济学、生态学、神经科学、物理学等。在多个时间点观察或测量到的任何事物都可以形成一段时间序列。很多时间序列是固定频率的，也就是说，数据点是根据某种规律定期出现的（比如每15秒、每5分钟、每月出现一次）。时间序列也可以是不定期的，没有固定的时间单位或单位之间的偏移量。时间序列数据的意义取决于具体的应用场景，...

2019-10-12 09:13:47 387

转载利用python进行数据分析(第二版)_第十章

对数据集进行分组并对各组应用一个函数（无论是聚合还是转换），通常是数据分析工作中的重要环节。在将数据集加载、融合、准备好之后，通常就是计算分组统计或生成透视表。pandas提供了一个灵活高效的gruopby功能，它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。关系型数据库和SQL（Structured Query Language，结构化查询语言）能够如此流行的原因之一就是其能够方便...

2019-10-12 09:12:22 645

转载利用python进行数据分析(第二版)_第九章

信息可视化（也叫绘图）是数据分析中最重要的工作之一。它可能是探索过程的一部分，例如，帮助我们找出异常值、必要的数据转换、得出有关模型的idea等。另外，做一个可交互的数据可视化也许是工作的最终目标。Python有许多库进行静态或动态的数据可视化，但我这里重要关注于matplotlib（http://matplotlib.org/）和基于它的库。matplotlib是一个用于创建出版质量图表的桌面...

2019-10-12 09:10:52 615

转载利用python进行数据分析(第二版)_第八章

在许多应用中，数据可能分散在许多文件或数据库中，存储的形式也不利于分析。本章关注可以聚合、合并、重塑数据的方法。首先，我会介绍pandas的层次化索引，它广泛用于以上操作。然后，我深入介绍了一些特殊的数据操作。在第14章，你可以看到这些工具的多种应用。8.1 层次化索引层次化索引（hierarchical indexing）是pandas的一项重要功能，它使你能在一个轴上拥有多个（两个以上）...

2019-10-12 09:07:20 342

转载利用python进行数据分析(第二版)_第七章

在数据分析和建模的过程中，相当多的时间要用在数据准备上：加载、清理、转换以及重塑。这些工作会占到分析师时间的80%或更多。有时，存储在文件和数据库中的数据的格式不适合某个特定的任务。许多研究者都选择使用通用编程语言（如Python、Perl、R或Java）或UNIX文本处理工具（如sed或awk）对数据格式进行专门处理。幸运的是，pandas和内置的Python标准库提供了一组高级的、灵活的、快速...

2019-10-12 09:07:05 490

转载利用python进行数据分析(第二版)_第六章

访问数据是使用本书所介绍的这些工具的第一步。我会着重介绍pandas的数据输入与输出，虽然别的库中也有不少以此为目的的工具。输入输出通常可以划分为几个大类：读取文本文件和其他更高效的磁盘存储格式，加载数据库中的数据，利用Web API操作网络资源。6.1 读写文本格式的数据pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。表6-1对它们进行了总结，其中read_csv...

2019-10-12 09:06:50 430

转载利用python进行数据分析(第二版)_第五章

pandas是本书后续内容的首选库。它含有使数据清洗和分析工作变得更快更简单的数据结构和操作工具。pandas经常和其它工具一同使用，如数值计算工具NumPy和SciPy，分析库statsmodels和scikit-learn，和数据可视化库matplotlib。pandas是基于NumPy数组构建的，特别是基于数组的函数和不使用for循环的数据处理。虽然pandas采用了大量的NumPy编码风...

2019-10-12 09:06:35 833

转载利用python进行数据分析(第二版)_第四章

NumPy（Numerical Python的简称）是Python数值计算最重要的基础包。大多数提供科学计算的包都是用NumPy的数组作为构建基础。NumPy的部分功能如下：ndarray，一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。用于对整组数据进行快速运算的标准数学函数（无需编写循环）。用于读写磁盘数据的工具以及用于操作内存映射文件的工具。线性代数、随机数生成以及...

2019-10-12 09:06:18 1078

转载利用python进行数据分析(第二版)_第三章

本章讨论Python的内置功能，这些功能本书会用到很多。虽然扩展库，比如pandas和Numpy，使处理大数据集很方便，但它们是和Python的内置数据处理工具一同使用的。我们会从Python最基础的数据结构开始：元组、列表、字典和集合。然后会讨论创建你自己的、可重复使用的Python函数。最后，会学习Python的文件对象，以及如何与本地硬盘交互。3.1 数据结构和序列Python的数据结...

2019-10-12 09:05:59 892 1

转载利用python进行数据分析(第二版)_第二章

第2章 Python语法基础，IPython和Jupyter Notebooks当我在2011年和2012年写作本书的第一版时，可用的学习Python数据分析的资源很少。这部分上是一个鸡和蛋的问题：我们现在使用的库，比如pandas、scikit-learn和statsmodels，那时相对来说并不成熟。2017年，数据科学、数据分析和机器学习的资源已经很多，原来通用的科学计算拓展到了计算机科学...

2019-10-12 09:05:38 907

转载利用python进行数据分析(第二版)_第一章

第1章准备工作1.1 本书的内容本书讲的是利用Python进行数据控制、处理、整理、分析等方面的具体细节和基本要点。我的目标是介绍Python编程和用于数据处理的库和工具环境，掌握这些，可以让你成为一个数据分析专家。虽然本书的标题是“数据分析”，重点却是Python编程、库，以及用于数据分析的工具。这就是数据分析要用到的Python编程。什么样的数据？当书中出现“数据”时，究竟指的是什么...

2019-10-12 09:05:10 594

原创 sql练习题-2

###第一个学生表，五个字段分别为学号，姓名，性别，生日，班级CREATE TABLE STUDENT(SNO VARCHAR(3) NOT NULL,SNAME VARCHAR(4) NOT NULL,SSEX VARCHAR(2) NOT NULL,SBIRTHDAY DATE,SCLASS VARCHAR(5));###第二个教师表，分别为职工号，姓名，生日，部门CREATE...

2019-09-27 17:25:16 400

原创 sql练习题

数据表介绍–1.学生表Student(SId,Sname,Sage,Ssex)–SId 学生编号,Sname 学生姓名,Sage 出生年月,Ssex 学生性别–2.课程表Course(CId,Cname,TId)–CId 课程编号,Cname 课程名称,TId 教师编号–3.教师表Teacher(TId,Tname)–TId 教师编号,Tname 教师姓名–4.成绩表SC(S...

2019-09-23 21:15:09 235

原创爬虫实战29：爬取哔哩哔哩网站视频信息

# coding:utf-8import requestsimport jsonimport timeimport pymysqlimport bs4headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/7...

2019-09-11 15:49:02 1804

转载 Fiddler 教程

源文地址：http://www.cnblogs.com/TankXiao/archive/2012/02/06/2337728.htmlFiddler是最强大最好用的Web调试工具之一，它能记录所有客户端和...

2019-09-04 09:17:19 305

原创爬虫实战28：多线程爬取知乎关注人信息，并保存到mysql和MongoDB中

上篇文章讲的是如何爬取知乎关注者信息，这篇是上篇的多线程版本from threading import Threadfrom queue import Queueimport requestsimport json# 引入mysql数据库import pymysqldb = pymysql.connect(host='localhost', user='root', passwor...

2019-09-03 16:48:18 410

原创爬虫实战27：爬取关注人所关注者的信息

# encoding:utf-8import requestsimport json# 引入mysql数据库import pymysqldb = pymysql.connect(host='localhost', user='root', password='123456', port=3306, db='mysql') # 连接mysql数据库cursor = db.curso...

2019-09-03 15:32:42 462

转载 CSDN如何一键转载别人的文章

前言对于喜欢逛CSDN的人来说，看别人的博客确实能够对自己有不小的提高，有时候看到特别好的博客想转载下载，但是不能一个字一个字的敲了，这时候我们就想快速转载别人的博客，把别人的博客移到自己的空间里面，当然有人会说我们可以收藏博客啊，就不需要转载，(⊙o⊙)… 也对。。实现因为我自己当初想转载的时候却不知道该怎么转载，所以学会了之后就把方法写出来，帮助那些想转载却不知...

2019-09-03 14:03:12 330

转载 Redis数据库增删改查操作用法

redis 是完全开源免费的，遵守BSD协议，是一个高性能的key-value数据库。Redis 与其他 key - value 缓存产品有以下三个特点：Redis支持数据的持久化，可以将内存中的数据保存在磁盘中，重启的时候可以再次加载进行使用。Redis不仅仅支持简单的key-value类型的数据，同时还提供list，set，zset，hash等数据结构的存储。Redis支持数据的备份，...

2019-09-03 12:16:18 4136

原创爬虫实战26：爬取知乎关注人信息并保存到mysql和MongoDB中

# encoding:utf-8import requestsimport json# 引入mysql数据库import pymysqldb = pymysql.connect(host='localhost', user='root', password='123456', port=3306, db='mysql') # 连接mysql数据库cursor = db.curso...

2019-09-03 10:57:43 279

原创爬虫实战25：scrapy框架爬取CSDN讲师信息

items相关代码：name = scrapy.Field() href = scrapy.Field() students = scrapy.Field() contents = scrapy.Field()csdn相关代码import scrapyfrom scdnedu import itemsimport requestsfrom lxml impor...

2019-08-23 14:20:12 701

原创爬虫实战24：爬取阳光问政信息

import requestsimport timeimport bs4from lxml import etreeimport geventimport gevent.monkeyimport threadingheaders = { 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image...

2019-08-22 17:03:44 796

FUN With GfK Data_2014 version xls (1).xlsx

空空如也