- 博客(5)
- 资源 (1)
- 收藏
- 关注
原创 pymysql处理Unicode
在写python爬虫的时候,听说处理Unicode字符串是比较痛苦的(但是我还没感受过!), 先把解决问题贴上来,以后肯定会遇到的: 解决的方法就是最好一开始就让你的数据库支持Unicode编码:ALTER DATABASE scraping CHARACTER SET = utf8mb4 COLLATE = utf8mb4_unicode_ci;ALTER TABLE pages CONVE
2017-07-24 20:15:44 1262
原创 pymysql链接mysql
今天看书,讲到pymysql 链接 mysql 数据库,又从中发现了一点点小不足 。 我的环境: 1.ubuntu 16.04 2.mysql (版本忘记了) 下面是正确的链接代码:import pymysqlconn = pymysql.connect(host = '127.0.0.1',port = 3306,user='root',passwd='None',db='mysql')
2017-07-24 19:39:38 760
原创 python 操作csv
爬取网页的时候,有时候需要爬去表格里面的数据,这时候可以考虑吧他存放到csv格式的文件里面去,下面是Python 操作csv 模板的一些 基本操作from urllib.request import urlopenfrom bs4 import BeautifulSoupimport csvhtml = urlopen('http://en.wikipedia.org/wiki/Comparis
2017-07-24 16:38:29 265
原创 json字符串与python字符串的不同之处
API的应用通常会处理json数据,刚好今天看到了json字符串和python字符串的区别,放一段代码,区别一下子就看出来,的确json 库为处理Json 数据提供了不少的便利。import jsonjsonString = '{"arrayOfNums":[{"number":0},{"number":1},{"number":2}],"arrayOfFruits":[{"fruit":"appl
2017-07-24 10:59:34 1149
原创 爬取电影天堂的电影信息
今天做了一早上的爬虫,爬去电影天堂的电影链接。使用了正则表达式。总的来说来不错。上代码。已经实现的功能:1.抓取电影发布的日期 2.电影的名字 3.电影的年代 4.电影的产地 5.电影的类别 6:电影的字幕目前还在考虑,需不需要这么多的字段。 也还遇到一些问题,比如 想抓取豆瓣评分。但是电影天堂的网页布局,有些不一样。很明显是两个人写的。。 尴尬!!想要达到的预期目标,抓取电影名字,
2017-07-23 14:33:53 2059
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人