Stay hungry Stay foolish.

一颗有温度的松子|微信公众号:分享百科 松子

python爬虫猫眼电影TOP100(爬虫入门基础,同步入库)

小编辗转了比较长的一段时间,现在终于提笔于python的运用,这次尝试也是一个开端。 本篇文章所爬取的数据网上已经有了很多版本,并不是什么新鲜的数据,仅仅作为个人进阶的参考。 python爬虫进阶第S190811期 python爬虫将会进一步深入到JavaScript渲染网页(动态渲染)、验...

2019-08-12 10:22:41

阅读数 43

评论数 0

我不知道为何而来,也不知道为何而离开

公众号:分享百科 松子​ 原文网址:https://mp.weixin.qq.com/s/jBMT3JFuWhwiKkwXRpFdTg 《品记》—第S0190710期 古风:风华是一指流砂,苍老是一段年华 你不知道为何你会出现,因为你出现的时候什么也不知道。 ...

2019-08-05 10:44:22

阅读数 67

评论数 0

R语言基于selenium模拟浏览器操作进行(AJAX渲染网页、动态网页)数据爬取-连载NO.02(更新中)

R语言动态网页数据爬取用法连载NO.02 selenium是一个开源的软件套件。selenium通过浏览器控制与网页进行交互,这样我们可以操作实时DOM树(浏览器窗口中视觉显示的方式)。 selenium可以控制浏览器实现文本输入、点击、滚动、滑动的操作。 可进行...

2019-05-21 17:45:28

阅读数 113

评论数 0

网络爬虫HTTP原理、网页请求、网页基础

目录 1、URI与URL 2、超文本hypertext 3、HTTP和HTTPS 4、HTTP请求过程 5、请求方法 6、请求头 7、请求体 8、响应 9、网页基础 1、URI与URL URI是统一资源标志符(URL是URI的子集...

2019-07-18 15:20:01

阅读数 3953

评论数 0

MYSQL查询优化方法集合

少用一次select * ,少一次苦恼。 1、避免使用select *查询 2、避免重复查询相同数据 3、mysql是否在扫描额外的记录,尽可能查询只返回需要的数据。最简单的衡量查询开销的3个指标:响应时间,扫描行数,返回的行数。检查慢日志记录是找出扫描行数过多的查询的办法 。 3.1...

2019-07-04 17:40:58

阅读数 43

评论数 0

Hmisc包函数(数据变量名批量修改、变量标签、变量描述性统计)

Hmisc包函数 1、upData(object, ...,subset, rename, drop, keep, labels, units, levels, force.single=TRUE,lowernames=FALSE, caplabels=FALSE, moveUnits=FALS...

2019-06-21 15:38:30

阅读数 88

评论数 0

R语言purrr包函数(map函数族)

R语言高效数据处理包purrr 参数说明:x:列表或者向量;.f:函数或者公式或者向量; .p:判断函数;.else:若.p参数为false则执行该参数的函数 .at:函数只修改.at对应的参数;.l向量列表 初始函数名 作用说明 对应二维列表/...

2019-06-13 17:54:12

阅读数 212

评论数 0

Tableau可视化杂记

Tableau 6、高级数据操作: 6.1.1分层结构: 分层结构是一种维度之间自上而下的组织形式。tableau默认包含了对某些字段的分层结构,如:日期、时间、地理角色。 分层结构对维度之间的重新组合有重要作用,上钻、下钻是导航分层结构的最有效方法。 创建分层结构:(当待分层字段出...

2019-05-26 22:08:28

阅读数 133

评论数 0

数据挖掘算法之C4.5算法-记录

1、C4.5算法综合描述 C4.5算法(有监督学习):用于处理分...

2019-05-24 17:38:54

阅读数 49

评论数 0

R语言正则表达式语法共享(更新中)

R语言正则表达式语法 在之前文章stringr包里面提到需要用到正则表达式的去处理一些杂乱数据,尤其是在处理从网络爬取的数据,而非自由平台的数据时候,数据是非常脏的。 R语言可运用正则表达式的函数 1、有基础包自带函数grep, grepl, regexpr, gregexpr,regex...

2019-05-22 16:34:14

阅读数 74

评论数 0

R语言连接MySQL读写中文数据乱码问题解决方案

R语言在对中文的读写上是有点不友好,估计也是众多R语言使用者吐槽的点。 Rstudio连接mysql可以通过RMySQL和RODBC连接,通常对于非中文的数据读写、分析都不会出现问题,但是遇到中文的时候问题就来了。 对于R连接MySQL读取中文或者写入中文数据的时候乱码问题,这里给出的解决...

2019-05-09 18:03:09

阅读数 149

评论数 0

R语言RSelenium包爬取动态网页数据前期准备(环境配置)-连载NO.01

生而为人,学无止境。 作为爬虫爱好者,最开始的时候多少都会遇到爬取的时候返回各种bug,抓头挠耳吧; R语言爬虫的包基础的就是rvest和RCurl,解析的就是xml包,当然你还得有html、css、http协议; 但基本的包仅对于静态网页的爬取比较有效,而对于动态网页(渲染网页)就没用...

2019-04-22 22:22:48

阅读数 146

评论数 2

2019全国旅游景区数量(包括5A景区最新名单)省市排名独家发布(主要为四川景区数量情况)

小编获取的景区数据供各个行业人士参考。 关注博主个人公众号,回复:5A级景区名单(4A级景区名单) 即可获取各个省市最新5A景区名单(最新4A景区名单) 页尾附微信公众号二维码 2019年全国景区数量统计分析(全国...

2019-04-19 11:55:26

阅读数 2657

评论数 0

R语言data.table包高效数据处理(大量数据分析/处理)

在数据处理量较大的时候,最为头痛的就是数据的读写、运算效率。 data.table处理大数据集(数据文件达到以1G为单位)时相对于R语言的基本函数在数据读写、处理速度都不能与之相比可以对比基础函数、dplyr包函数做同样运算处理的时间。可自行对比数据处理函数(filter、group_by...

2019-04-07 20:38:26

阅读数 220

评论数 0

R语言dplyr包:高效数据处理函数case_when、inner_join、semi_join、anti_join、right_join、left_join

R语言高效数据处理包 本篇为dplyr包实用函数的连载,主要为SQL数据库中类似功能的实现。 1、case_when函数,有一些SQL基础(casewhen)的都猜得到这个函数的功能 可实现多条件判断并可以添加标签的函数,这在我们对数据进行分类整理中十分的实用,这个函数中的参数可以这样分:一...

2019-03-30 21:38:08

阅读数 566

评论数 0

R语言stringr包字符串、文本数据处理函数(数据清洗、正则表达式)

最近一直在忙于数据清理、整理,分析、可视化都不多,想来把数据处理中的一些方法分享给大家! 本篇是对你接到一个烫手山芋时,如何将它们一并拿下! stringr包函数处理脏数据可谓是屡试不爽,例如:网络爬取的数据、平台反馈数据、用户数据、医疗数据 由于时间比较赶,下面写到的都是常用的数据处理...

2019-03-19 22:51:07

阅读数 367

评论数 0

R语言Spark大数据分析/可视化环境配置/部署教程(sparklyr、hadoop)

R软件本身软件可以处理的数据量其实对于一些喜欢用R处理数据的有一些局限性,但是R现在也可以部署大数据环境,过程虽然比较艰辛,但结果是安逸的。 最开始我们需要下载配置环境,配置环境小编把分为两部分: 1、外部环境配置文件(java、spark);2、Rstudio中配置 1.1java下载...

2019-02-27 21:34:36

阅读数 167

评论数 0

R语言tidyr包数据变换函数(dplyr包组合使用,完美)

日常的数据预处理中,不可避免的会遇到数据的各种变形、转换,R语言中的tidyr包函数解决了数据变形上的问题,变量、列的转换。 1、宽数据变长数据 gather(data, key = "key", value = "value", ..., na.rm...

2019-02-23 23:00:00

阅读数 420

评论数 0

R语言dplyr包实用数据处理arrange、sample_n、n_distinct、select、compute等

今天是个特别的日子,小编在这里祝大家情人节快乐!本篇文章继续之前文章提到的关于dplyr包数据处理的函数。错了,小编是准备那天发的,忘发了 R语言在数据整理、分析上面的方法是很多的,并且通俗易懂,相信热衷于用R语言处理数据的同仁也深有体会。 1、数据排序函数 arrange()函数其实和...

2019-02-16 15:14:48

阅读数 667

评论数 0

R语言dplyr包:高效数据处理函数(filter、group_by、mutate、summarise)

R语言dplyr包的数据整理、分析函数用法文章连载NO.01 在日常数据处理过程中难免会遇到些难处理的,选取更适合的函数分割、筛选、合并等实在是大快人心! 利用dplyr包中的函数更高效的数据清洗、数据分析,及为后续数据建模创造环境;本篇涉及到的函数为filter、filter_all()、f...

2018-12-13 22:56:51

阅读数 3567

评论数 0

提示
确定要删除当前文章?
取消 删除