python
D调的Stanley
这个作者很懒,什么都没留下…
展开
-
python 爬取微博实时热搜,并存入数据库实例
刚学python没几天,打算用paython爬去微博热搜数据试验一下,但是发现微博热搜是动态数据,网页源码并不能直接获取想要的数据,network里也并不能找到相关内容,这时重新查看网页源码,发现有类似中文编码的源码,数一下正好50个,不出意外这个就是我们需要的内容,但是这一串字符加了干扰,直接把中间所有的数字25删除后解析成中文发现就是微博热搜的主题以下是完整代码#!python3#encod...原创 2018-04-01 10:21:39 · 7884 阅读 · 1 评论 -
spark screaming 模拟实战项目实例
由于没有网络日志,我们这里用之前写的python脚本爬取新浪微博热搜模拟产生日志文件,通过kafka和flume整合 将日志定时抽取到 spark上进行处理,微博热搜是十分钟更新一次,我们这里也设置十分钟的定时任务,具体步骤如下第一步编写python脚本获取微博热搜 实时排名,主题和url,然后运行测试,代码如下#!python2# -*- coding:utf-8 -*-import url...原创 2018-05-03 23:15:43 · 1933 阅读 · 0 评论 -
使用xpath包 爬取房天下信息,并存入excel
由于房天下房源并不是动态加载,属于静态页面,所以爬取起来非常简单,这是我们使用xpath 可以轻易获取信息,以下是爬取杭州新房信息源码,爬取内容为楼盘名称,地址,所在区以及价格# coding:utf-8import requests, xlwt, sysfrom lxml import etreereload(sys)sys.setdefaultencoding('utf-8')#...原创 2018-05-29 21:59:49 · 2191 阅读 · 0 评论 -
python获取时间格式为yyyy-MM-dd的时间工具类
通过调用下面的方法获取想要获得的时间,时间格式为yyyy-MM-dd# encoding: utf-8import datetimedef get_curmonth_firstday(): """ 获取当月第一天 :return: """ return datetime.date(datetime.date.today().year,datet...原创 2019-01-30 10:26:02 · 1402 阅读 · 0 评论 -
DataX 源码分析之执行文件datax.py
DataX是阿里开源的一个异构数据源离线同步工具,底层源码使用java开发,编译完成后用python执行,首先我们先来分析datax.py的执行文件#!/usr/bin/env python# -*- coding:utf-8 -*-import sysimport osimport signalimport subprocessimport timeimport reim...原创 2019-09-04 16:44:56 · 2604 阅读 · 0 评论