当前搜索:

Windows下QT Creator配置OpenCV(VC版)

Windows环境下的编程工具Visual Studio,调试功能很好用。之前是在VS上写调用OpenCV库的C++代码。现在有设计界面的需求,但是不喜欢VS自带的C++ GUI库MFC。所以选择了安装QT。 写Qt程序,可以在VS中安装Qt插件,这是一种开发方式。但QT不只是个GUI库,它还具...
阅读(292) 评论(0)

Leetcode 70. Climbing Stairs

题意解析说一个人爬楼梯,共有n阶。每一步可以爬1阶,或者2阶。求爬这个楼梯共有多少种不同的爬法。Accepted Solution有人研究了出了结论,说这个问题的解就是斐波那契数列,没错,这是结论,我们不会推结果怎么来的,只是解决问题那么就很简单了:最简单的递归案例。 本例中阶梯数n与结果的关系...
阅读(295) 评论(0)

LeetCode 463. Island Perimeter

题意解析这道题需要看图。说有如下的小岛,小岛就是小岛,四周全都是水,中间没有湖泊之类的。这种布局可以用二维数组来表达,1代表陆地,0代表水。求小岛的周长。 Accepted Solution怎么统计每块陆地贡献的边数呢?如图,黄色的边是有效的,黑色的边是无效的。确立这样的准则:对于每块陆地,最多...
阅读(268) 评论(0)

LeetCode 83. Remove Duplicates from Sorted List

题意解析链表操作题,对已经排好序的链表,如果有值重复的节点,则删除重复节点。 举例: 1->1->2 得到1->2 1->1->1->2 得到1->2Accepted Solution/** * Definition for singly-link...
阅读(259) 评论(0)

LeetCode 437. Path Sum III

题意解析在给定的二叉树中找到这样的路径,所有元素的和等于给定整数。 路径不一定从根节点出发,到叶节点结束。而只要它满足是从上至下的。 找出所有路径的数量。Accepted Solution/** * Definition for a binary tree node. * struct T...
阅读(255) 评论(0)

二叉树按层打印

首先一下算法是以宽度优先算法(BFS)为基础,宽度优先搜索是基于队列实现的。通过设立两个节点变量last(当前打印层的最右节点),nlast(下一打印层的最右节点)来控制换行。算法流程:初始化:last=root (root 是根节点)循环遍历: 出队打印 左右子孩子入队,并赋值nlast 判...
阅读(263) 评论(0)

一个案例看机器学习建模基本过程

machine learning for credit scoringBanks play a crucial role in market economies. They decide who can get finance and on what terms and can make or b...
阅读(1974) 评论(1)

中国有嘻哈:网易云、虾米音乐歌词爬虫项目分享

《中国有嘻哈》这款综艺带火了中国的嘻哈音乐,大家问好也都变成了:你有freestyle吗? 相信大家都是因为这篇高大上的微信推送文章来的。 没看到也不要紧,传送带在这里–>爱票子也爱妹子:300万字歌词分析看中国rapper到底在唱什么。 真心觉得寒小阳老师的数据分析技术很厉害~还有小...
阅读(2396) 评论(6)

用spark统计50年美国最常见的20个名字

使用Spark统计从1950到2000年,美国有相同姓名的人出生数目,然后输出头20个最频繁出现的名字from pyspark import SparkContext sc = SparkContext('local', 'pyspark')import os cwd = os.getcwd() ...
阅读(1244) 评论(0)

Spark RDD 练习题(python)

from pyspark import SparkContext sc = SparkContext('local', 'pyspark')牛顿法求平方根我们知道牛顿法求 n√\sqrt{n} (达到eps准确度)的算法是这样的:** * 给定一个初始值 x=1.0x = 1.0. * 求xx...
阅读(731) 评论(0)

Python+Hadoop Streaming实现MapReduce任务

Hadoop Streaming Hadoop streaming是Hadoop的一个工具, 它帮助用户创建和运行一类特殊的map/reduce作业。 这些特殊的map/reduce作业是由一些可执行文件或脚本文件充当mapper或者reducer。例如,我们可以用Python来编写脚本:ma...
阅读(1291) 评论(0)

Python可视化seaborn练习题

seaborn —— 课后练✋%matplotlib inline import numpy as np import pandas as pd from scipy import stats, integrate import matplotlib as mpl from matplotlib ...
阅读(940) 评论(0)

Python matplotlib 练习题

matplotlib —— 课后练✋%matplotlib inline import matplotlib as mpl from matplotlib import pyplot as plt import seaborn as sns import numpy as np import pa...
阅读(1519) 评论(0)

数据分析:pandas分析链家网二手房信息

分析链家网南京市二手房信息链家网二手房数据的采集方法参见之前的博客:数据采集(四):用XPath爬取链家网房价数据总共获取30000条数据记录。import pandas as pd import numpy as np import matplotlib.pyplot as plt house...
阅读(2155) 评论(0)

数据采集(七):爬取豆瓣电影评论(scrapy+模拟登陆)

目标爬取豆瓣电影上至少10部电影的短评数据。本例中爬取开始的链接是豆瓣电影排行榜,可以看到刚好有10部。点击每个电影的标题会切入电影简介页。这个页面仅包含电影的部分评论。通过访问“全部**条”超链,可进入评论页。我们从该页面获取电影的片名、评论用户、评分、评论内容数据。另外为了获得全部的评论数据,...
阅读(1301) 评论(0)

数据采集(六):scrapy爬取搜狗微信新闻+selenium模拟鼠标点击

scrapy是一个流行的爬虫框架,为什么要用它呢?前面我们已经通过xpath或beautifulsoup实现了爬虫,scrapy又有什么不同?我在理解了这个框架之后,感觉它很灵活,很强大。 使用beautifulsoup库我们可以很方便的实现单个爬虫,最后的结果写进了一个字典。但是当考虑一个项目...
阅读(2295) 评论(2)

数据采集(五):用requests模拟登陆豆瓣

导入需要的库# -*- encoding:utf-8 -*- import urllib2 import urllib import re import cookielib import requests import cStringIO from PIL import Im...
阅读(662) 评论(0)

数据采集(四):用XPath爬取链家网房价数据

1.准备工作编写爬虫前的准备工作,我们需要导入用到的库,这里主要使用的是requests和lxml两个。还有一个Time库,负责设置每次抓取的休息时间。import requests import requests import time from lxml import etree2.抓取列表页...
阅读(1130) 评论(1)

数据采集(三):用XPath爬取腾讯新闻

用XPath 爬取腾讯新闻import requests from lxml import etree先用requests.get()方法请求页面result=requests.get("http://news.qq.com/") encode=result.encoding ...
阅读(878) 评论(0)

数据采集(二):腾讯新闻网,新闻标题和内容爬取

比如我对“科技”版块感兴趣,科技版块的链接是“http://tech.qq.com/” 。 首先使用requests请求网页内容。status_code为200表示请求成功。headers是将请求伪装成浏览器行为。timeout设置不能太小,考虑到人的访问手速。import requestshe...
阅读(1974) 评论(0)
    个人资料
    专栏达人 持之以恒
    等级:
    访问量: 14万+
    积分: 2218
    排名: 2万+
    About Me
    博客专栏
    最新评论