- 博客(15)
- 资源 (3)
- 收藏
- 关注
原创 Hive表txt文件导入
---- 建表格式USE dw_htlbizdb;CREATE TABLE CiiFcst_hotel_forecast_result_type_test(masterhotel int COMMENT '酒店ID',ciiquantity double COMMENT '间夜量')comment '测试表'PARTITIONED BY(d STRING COMMEN
2016-10-26 18:40:14 8590
原创 python爬虫:编写多进程爬虫学习笔记
# -*- coding: utf-8 -*-"""Created on Sat Oct 22 21:01:23 2016@author: hhxsym"""import requestsimport jsonimport osimport pymongoimport timefrom bs4 import BeautifulSoupfrom multiprocessin
2016-10-25 00:04:02 1945 2
原创 Hive实现大数据集有放回抽样(方法一)
------ 特点:效率高------ table(1) 数据全集use dw_htlbizdb;drop table if exists dw_htlbizdb.Tmp_CiiFcst_hotel_Cii_up_sample_1020;create table dw_htlbizdb.Tmp_CiiFcst_hotel_Cii_up_sample_1020
2016-10-24 09:15:32 1940
原创 python爬虫:使用Mongodb数据库存储数据学习笔记
# -*- coding: utf-8 -*-"""Created on Sat Oct 22 21:01:23 2016@author: hhxsym"""import requestsimport jsonimport osimport pymongoimport timeinpath="C:\\Users\\hhxsym\\Desktop\\课程群Python爬虫"
2016-10-24 07:26:51 3775 1
原创 python爬虫:处理POST请求(获取有道翻译翻译结果)学习笔记
# -*- coding: utf-8 -*-"""Created on Sun Oct 23 09:24:18 2016@author: hhxsym"""import requestsimport json#POS请求:直接向服务器发送数据#get请求:从服务器获取数据#有道,向服务器发送数据,再获取数据def get_trans
2016-10-23 10:00:19 2421
原创 python爬虫:爬去Json响应内容(第六感别墅度假别墅列表)学习笔记
# -*- coding: utf-8 -*-"""Created on Sat Oct 22 21:01:23 2016@author: hhxsym"""import requestsimport jsonimport osinpath="C:\\Users\\hhxsym\\Desktop\\课程群Python爬虫"inpath =
2016-10-22 22:20:05 1158
原创 python爬虫:传递URL参数学习笔记
# -*- coding: utf-8 -*-"""Created on Sat Oct 22 17:57:13 2016@author: hhxsym买粮网搜索列表获"""import osimport requestsfrom bs4 import BeautifulSoupinpath="C:\\Users\\hhx
2016-10-22 19:17:09 6392
原创 python爬虫:下载百度贴吧图片(多页)学习笔记
# -*- coding: utf-8 -*-"""Created on Sat Oct 22 11:49:43 2016@author: hhxsym"""import osimport requestsfrom bs4 import BeautifulSoupimport urllib #用于下载图形inpath="C:\\U
2016-10-22 16:15:14 448
原创 python爬虫:下载百度贴吧图片学习笔记
# -*- coding: utf-8 -*-"""Created on Sat Oct 22 09:27:18 2016@author: hhxsym"""import osimport urllibimport urllib2import reinpath="C:\\Users\\hhxsym\\Desktop\\课程群Python爬虫"inpath =
2016-10-22 10:50:43 283
原创 Scala-Spark实现RF(随机森林)
package Cii_Forecastimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.hive.HiveContext/** * Created by yuan.min on 2016/9/8. */object Cii_Forecast_main
2016-10-21 17:18:59 3156
原创 文件学习笔记(Python)
文件1、 持久化持久化(persistent):程序的一种属性,它会一直的运行,并至少保存一部分数据在永久存储中。文本文件是存储在诸如硬盘、闪存或光盘的永久媒介上的字符串序列。 2、 读和写要写入一个文件,需要用’w’模式作为第二个实参打开它。import osos.chdir("C:/Users/hhxsym/Desktop/python.worksp
2016-10-16 22:20:07 3037
原创 类和方法学习笔记(python)
类和方法 1、 面向对象的特性python是一门面向对象编程语言,它提供了一些语言特性来支持面向对象的编程。 python提供的面向对象的编程特性,严格来说,不是必需的,他们大部分是我们已经做过的事情的另一种选择方案,但是在很多情况下,这种方案更简洁,更能准确的表达程序的结构。方法(method):在类定义之内定义的函数,在类的实例上调用。面向对象编程(obje
2016-10-16 09:31:47 515
原创 类和函数学习笔记(python)
类和函数1、 时间作为用户定义类型的另外一个例子,定义一个Time的类,用于记录每一天的时间,类定义如下:class Time(object): """Represents the time of day. attributes:hour, minute, second """我们可以创建一个时间对象,并给其属性小时数、分钟数、秒
2016-10-15 18:09:22 539
原创 类与对象学习笔记(Python)
1、 用户定义类型(1)用户定义的类型也称为类(class),类的定义形式如下:class Point(object): """Represents a point in 2-D space."""定义头表示新的类是一个Point,它是object的一种,而object是一个内置函数。(2)定义一个叫做Point的类会创建一个类对象。In [7]:print Point
2016-10-15 16:19:43 971
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人