Galaxy__42-CSDN博客

原创 python数据分析入门（Numpy）

目录4.1 NumPy的ndarray：一种多维数组对象创建ndarrayndarray的数据类型NumPy数组的运算基本的索引和切片切片索引布尔型索引花式索引4.2 通用函数：快速的元素级数组函数4.3 利用数组进行数据处理将条件逻辑表述为数组运算数学统计方法用于布尔型数组的方法排序唯一化以及其它的集合逻辑4.4 用于数组的文...

2020-04-18 18:03:19 869 1

原创贝壳房价数据分析

贝壳网宁波地区房价数据分析贝壳宁波房源数据爬取1.全部代售房屋数据数据清洗1.删除缺失值使用筛选，筛选出户型结构的空白值全部选中删除行然后点击列就可知道每列有多少的数值2.将楼层中的数字提取出来=MID(E2,FIND("共",E2)+1,FIND("层",E2,FIND("共",E2))-FIND("共",E2)-1)用此E...

2020-03-16 14:32:30 6268

原创 Scrapy爬取贝壳网并存入csv

一、分析目标站点本文以爬取宁波地区的房产信息为例1、宁波整个市页面宁波地区的网址都是以上面的格式，再加上各个区的拼音，即可进入各个区的网页。各个区的名称：areas = {'海曙区': 'haishuqu1', '江北区': 'jiangbeiqu1', '镇海区': 'zhenhaiqu1', '北仑区': 'beilunqu1', ...

2020-03-05 12:47:02 2215 2

原创《谁说菜鸟不会数据分析》第二章确定分析思路

常用数据分析方法论PEST分析法：政治（political）、经济（economic）、技术（technological）、社会（social）用于行业分析。a、政治环境的关键指标有：政治体制、经济体制、财政政策、税收政策、产业政策、投资政策、专利数量、国防开支水平、政府补贴水平、民众对政治的参与程度。b、经济环境：分为宏观经济环境和微观经济环境宏观经济环境是指一个国家的GDP\G...

2020-02-01 16:33:35 451

原创《谁说菜鸟不会数据分析》第一章何为数据分析

1.1何谓数据分析数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，将它们加以汇总和理解并消化以求最大化的开发数据的功能。数据分析是为了提取有用的信息和形成结论而对数据加以详细研究和概括总结的过程，目的：是把隐藏在看似无用的数据背后的有用信息集中和提取出来，总结出所研究对象的内在规律。在实际工作中，数据分析能够帮助管理者进行判断和决策，以便采取适当策略与行动。1.1.1...

2020-01-28 15:29:51 754

原创 NumPy的数据存取

一.数据的CSV文件存取1、将数据写入CSV文件np.savetxt(frame, array, fmt='%.18e', delimiter=None)• frame : 文件、字符串或产生器，可以是.gz或.bz2的压缩文件 • array : 存入文件的数组 • fmt : 写入文件的格式，例如：%d %.2f %.18e • delimiter : 分割字符串...

2019-05-09 20:30:34 394

原创【爬虫】使用pyspider爬取壁纸

文章参考：https://blog.csdn.net/wangjx92/article/details/78903288 这次爬取的是必应的每日壁纸。如何使用请看这里。 1.先分析一下Url： https://bing.ioliu.cn/?p=1 发现只要更改p的参数就可以进入相应的页数。而且有多少页都已经标好了，微软真是贴心啊。 ...

2019-02-12 20:52:45 401

转载 turtle库的使用(笔记)

1、turtle的绘图窗体 turtle.setup（width，height，startx，starty）-setup()设置窗体大小和位置-4个参数中后两个可选一二两个参数是指窗口的长度与宽度startx指窗体的左上角的位置的坐标。 turtle.setup(800, 800, 0, 0)如果没有后面两个参数，系统会默认在程序的正中心。 ...

2018-08-21 10:50:23 25220

转载 Python3 内置函数

Python中转变大小写的直接函数有以下方法：upper()——所有字母大写 lower()——所有字母小写capitalize()——首字母大写，其他字母小写title()——所有单词首字母大写，其他小写>>> s = "hEllo pYThon">>> s.upper()'HELLO PYTHON'>>> s...

2018-08-04 20:29:43 331

原创 Python3网络爬虫：爬取漫画

那个网站漫画爬不到了，等有时间换个网站爬。 1、前言本文使用了requests、bs4、os库与自动化测试工具Selenium。 Selenium安装详情请看 https://germey.gitbooks.io/python3webspider/content/1.2.2-Selenium%E7%9A%84%E5%AE%89%E8%...

2018-07-23 10:34:01 5361 1

转载 jieba库的使用

jieba库概述： jieba是优秀的中文分词第三方库-中文文本需要通过分词获得单个的词语jieba分词的三种模式精确模式、全模式、搜索引擎模式-精确模式：把文本精确的切分开，不存在冗余单词。是把一段文本精确的切割成若干个中文单词，若干个中文单词之间经过组合就精确的还原为之前的文本。其中不存在多余重复的单词。（最常用）-全模式：把文本中所有可能的词语都扫描出来，有冗余。全模式是把一段...

2018-06-20 20:56:22 576 1

转载 PyInstaller库的使用

PyInstaller库概述：特点是转换之后无需编译器便可执行。安装 pip install pyinstaller使用方法：推荐使用-F

2018-06-18 11:27:28 366

原创 random库(Python语言程序设计笔记)

调用了random.seed(10)设置了种子的函数，后续调用random的顺序只要相同，产生的随机数也是相同的。扩展随机函数： randrange(start, stop[, step]) 生成一个[start, stop)之间以step为步数的随机整数 sample(pop, k) ...

2018-06-18 11:03:28 653

原创 Python的文本进度条

-采用字符串方式打印可以动态变化的文本进度条。-进度条需要能在一行中逐渐变化。1、简单的开始import timescale = 10 # 我们文本进度条大概的宽度print("------执行开始------")for i in range(scale+1): a = '*' * i b = '.' * (scale - i) c = (i/scale) * 1...

2018-06-17 12:23:25 2398

转载 Python time库的使用（MOOC中Python语言程序设计的笔记）

Python语言程序设计欢迎大家过去学习 1、基本函数的使用：这串数字是指：从1970年1月1日0点0分开始，到当前时刻为止的一个以秒为单位的数值。使用time.localtime(secs)获取当前时间戳对应的本地时间的struct_time对象>>> time.gmtime()time.struct_time(tm_year...

2018-06-17 10:03:16 400

原创 Python的第三方库requests提示警告InsecureRequestWarning的问题

由于使用了verify=False结果出现了以下问题>>> import urllib3>>> urllib3.disable_warnings()即可。

2018-06-14 20:56:12 1244

转载 CSS选择器

参考官方文档http://beautifulsoup.readthedocs.io/zh_CN/latest/#id20html_doc = """<html><head><title>The Dormouse's story</title></head><body><p class=&quo

2018-03-29 20:47:16 250

翻译爬虫（寻找网站所有者）

安装 whoispip install python-whois>>> import whois>>> print whois.whois('www.zhihu.com')Socket Error: timed out{ "updated_date": "2017-08-17 05:41:08", "status": [ "clientDele

2018-02-22 11:52:59 454

翻译爬虫（识别网站所用技术）

该模块将URL作为参数，下载该URL并对其进行分析，然后返回该网站使用的技术。下面是使用该模块的一个例子。>>> import builtwith>>> builtwith.parse('http://www.zhihu.com'){u'javascript-frameworks': [u'React', u'RequireJS']}...

2018-02-22 11:47:18 741

Galaxy__42的博客