29DCH的博客

预见未来最好的方式就是亲手创造未来!

pycharm如何快速创建scrapy项目

1.安装scrapy pip install scrapy 或者去Project Interpreter里面添加scrapy库 2.在指定文件夹或者pycharm里面的终端中执行命令 scrapy startproject myproject 3.利用爬虫模板设置爬虫文件 scrapy gensp...

2018-10-30 09:41:54

阅读数 130

评论数 0

leetcode19 Remove Nth Node From End of List(删除链表的倒数第N个节点)

题目链接 https://leetcode.com/problems/remove-nth-node-from-end-of-list/ 知识点: 考察链表、指针相关知识 思路: 1.先遍历一遍计算得到链表的长度,再遍历一遍删除倒数第n个节点 2.双指针法:p指针开始的时候指向虚拟头结点,p、q指...

2018-10-29 17:39:47

阅读数 22

评论数 0

leetcode237 Delete Node in a Linked List(删除链表中的节点)

题目链接 https://leetcode.com/problems/delete-node-in-a-linked-list/ 知识点: 考察链表、指针相关知识 思路: 这里只给出了node,没有给出val值,所以在一般情况下是不好删除node节点的.但是可以借助一个巧妙的方法,将node节点的...

2018-10-29 16:07:27

阅读数 62

评论数 0

leetcode24 Swap Nodes in Pairs(两两交换链表中的节点)

题目链接 https://leetcode.com/problems/swap-nodes-in-pairs/ 知识点: 考察链表指针相关知识 思路: 用p、node1、node2、next四个指针操作。相邻两个元素依次反转完毕后直到p指针指向倒数第二个节点时结束,将虚拟头结点dummyhead销...

2018-10-29 14:52:14

阅读数 47

评论数 0

网站的树结构以及爬虫的深度优先和广度优先

网站的URL设计是非常重要的,一般都是分层的,形成比较清晰的树结构。 环路: 了解了网站的树形结构和环路情况后可以让我们爬取有价值的信息的时候更加有策略和针对性。 在环路中最重要的是URL去重,否则就会陷入死循环中,去重策略见我的上一篇博客 https://blog.csdn.net/CowB...

2018-10-29 11:14:40

阅读数 75

评论数 0

爬虫去重策略

接触过爬虫的同学都知道,如果爬虫爬取的网页URL地址不去重的话,会陷入死循环中。这是非常不好的现象,所以下面就来讲一下爬虫的去重策略。 1. 将访问过的URL保存到数据库中,获取下一个URL之后从数据库中读取保存过的URL看是否重复。 优点:简单易行。 缺点:由于数据库读取占不少的内存和资源,速率...

2018-10-28 21:51:13

阅读数 245

评论数 0

数据分析实例之股票市场数据分析

学了一段时间的python数据分析以后,下面来完成一个股票数据分析的实际案例。 1.数据获取: 去雅虎财务上面搜索,具体网址如下: https://finance.yahoo.com/ 安装pandas-datareader pip install pandas-datareader 在这里我选...

2018-10-27 22:04:59

阅读数 1038

评论数 0

做数据分析和可视化如何获取大量科学的数据?

这个问题首先呢你需要…科学上网。 国内我暂时还没发现好一点的数据源。 主要是国外的,做数据分析和可视化这一方面我们都知道最重要也是最基本的就是数据了,其次才有那一系列的分析、可视化方法。 如何做数据分析和可视化我这里就先不说了,我的相关博客都有详细的介绍。 这里就给大家推荐几个国外的数据源...

2018-10-27 15:36:13

阅读数 378

评论数 0

Seaborn简介及应用

Seaborn是以matplotlib为底层,更容易定制化作图的py库 Seaborn其实是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn就能做出很具有吸引力的图,而使用matplotlib就能制作具有更多特色的图。应该把Seabor...

2018-10-27 13:42:46

阅读数 48

评论数 0

Matplotlib简介及应用

matplotlib是Python编程语言及其数值数学扩展包 NumPy的可视化操作界面。它为利用通用的图形用户界面工具包,如Tkinter, wxPython, Qt或GTK+向应用程序嵌入式绘图提供了应用程序接口。是一个python包,用于2D绘图。 简单入门示例: 正弦函数 impor...

2018-10-26 22:23:42

阅读数 47

评论数 0

leetcode203 Remove Linked List Elements(移除链表元素)

题目链接 https://leetcode.com/problems/remove-linked-list-elements/ 知识点: 考察链表中删除指定元素相关知识 思路: 1.常规思路,注意判断头结点的值是val的情况 2.构造一个虚拟头节点代替原先头结点,原先头结点变为第二个元素 代码: ...

2018-10-26 11:11:08

阅读数 34

评论数 0

leetcode206 Reverse Linked List(反转链表)

题目链接 https://leetcode.com/problems/reverse-linked-list/ 知识点: 考察链表指针相关知识 代码: /** * Definition for singly-linked list. * struct ListNode { * int...

2018-10-25 17:11:23

阅读数 40

评论数 0

1024程序员节

祝天下程序员节日快乐。今天不加班,不熬夜,不晚睡。多多注意自己的身体。 坚持梦想,用代码改变世界!

2018-10-24 23:22:06

阅读数 33

评论数 0

非关系型分布式数据库hbase简介及环境安装部署

HBase是一个开源的非关系型分布式数据库,它参考了谷歌的BigTable建模,实现的编程语言为Java。它是Apache软件基金会的Hadoop项目的一部分,运行于HDFS文件系统之上,为 Hadoop 提供类似于BigTable 规模的服务。因此,它可以容错地存储海量稀疏的数据。 下载:ht...

2018-10-19 22:21:43

阅读数 67

评论数 0

整合Flume和Kafka完成实时数据采集

结合我的这三篇博客 Flume应用案例之两台服务器之间进行实时数据采集 和分布式消息队列Kafka简介及环境安装部署 Flume应用案例之监控一个文件实时采集新增的数据输出到控制台 把avro-memory-logger.conf改成avro-memory-kafka.conf 内容如下: avr...

2018-10-19 15:37:28

阅读数 109

评论数 0

Kafka容错性测试

紧接我的上一篇博客 分布式消息队列Kafka简介及环境安装部署 这里对kafka的容错性进行测试 由图可以看出,此时有三个kafka进程,副本因子为3,leader是1号block,2,3号是从block,并且此时1,2,3号节点均存活 这个时候我们将3号block的进程强制结束掉 k...

2018-10-17 20:52:04

阅读数 151

评论数 0

分布式消息队列Kafka简介及环境安装部署

最近在做一个基于Spark Streaming的实时流处理项目,之间用到了Kafka来作为消息队列,所以在这里总结一下Kafka的用法及原理. Kafka是由Apache软件基金会开发的一个分布式开源流处理平台,由Scala和Java编写。该项目的目标是为处理实时数据提供一个统一、高吞吐、低延迟...

2018-10-17 17:07:18

阅读数 69

评论数 0

Flume应用案例之两台服务器之间进行实时数据采集

紧接我的上一篇博客 Flume应用案例之监控一个文件实时采集新增的数据输出到控制台 虚拟机啥的我先不搭了,就在一台服务器上演示 技术选型: exec source + memory channel + avro sink avro source + memory channel + logger ...

2018-10-16 19:28:57

阅读数 166

评论数 0

Flume应用案例之监控一个文件实时采集新增的数据输出到控制台

紧接我的前两篇博客讲下来 分布式日志收集框架Flume环境安装部署 Flume应用案例之从指定网络端口采集数据输出到控制台 阅读这篇博客如有问题,可以先参考阅读我的这两篇博客相关内容 Agent选型:exec source + memory channel + logger sink 在...

2018-10-16 15:40:24

阅读数 180

评论数 0

Flume应用案例之从指定网络端口采集数据输出到控制台

紧接我的上一篇博客 分布式日志收集框架Flume环境安装部署 这里开始实践,讲一下flume的应用案例 1.从指定网络端口采集数据输出到控制台 还是先参考一下万能的官网 https://flume.apache.org/FlumeUserGuide.html a1:agent名称 r1...

2018-10-16 14:44:12

阅读数 86

评论数 0

提示
确定要删除当前文章?
取消 删除