自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

转载 用几十行代码实现python中英文分词

# -*- coding:utf-8 -*- #写了一个简单的支持中文的正向最大匹配的机械分词,其它不用解释了,就几十行代码#附:搜狗词库下载地址:http://vdisk.weibo.com/s/7RlE5 import string__dict = {} def load_dict(dict_file='words.dic'): #加载词库,把词库加载成一个

2016-12-21 16:58:19 4506

原创 python拆分中英文混合字符串

#coding=utf-8 import re s = 'hi新手oh'.decode('utf-8') #举个栗子是字符串s,为了匹配下文的unicode形式,所以需要解码p = re.compile(ur'[\u4e00-\u9fa5]') #这里是精髓,[\u4e00-\u9fa5]是匹配所有中文的正则,因为是unicode形式,所以也要转为ur print p.split(s

2016-12-21 16:08:05 13493 1

原创 python百度经纬度转google经纬度

因为公司项目需要遇到了这个问题。转完后几乎是完美的,本来打算用3方API的,一个月大概是600块,20W次,省钱了。import mathclass CoordinateConversion: def __init__(self): self.x_pi = 3.14159265358979324 * 3000.0 / 180.0 self.pi =

2016-12-14 14:18:59 1551

原创 一个简单的爬虫(二)

这个是第二爬虫,主要实现的是每日更新数据抓取新进入的评价。具体是这样的,我们需要美团每日的最新评价,也就是过去评价的不需要抓了。上代码,核心代码。#!/usr/bin/python# -*- coding: UTF-8 -*-import urllib2import requestsimport time,datetimeimport MySQLdbfrom lxml imp

2016-09-06 13:26:45 772

原创 一个简单的爬虫(一)

这段代码是抓取点评上海所有没发门店的,大概是有16000多家门店,代码很简单,上代码。#-*-coding:utf-8 -*-import requestsimport socketimport MySQLdbimport datetimeimport timefrom lxml import etreeimport randomfrom UserAgent import u

2016-09-05 19:08:43 1226 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除