自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 基于python的一个大规模爬虫遇到的一些问题总结

前些天在某个论坛看到一些很感兴趣的信息,想要将其爬取下来,预估了下规模,想要做的是:将整个论坛的所有文章爬取下来,保存为本地的txt。 一开始写了个爬虫,大致思路是: 先从论坛的起始页开始爬起,得到所有分区版面的网址然后从分区版面得到该区总共的页码数,根据网址规律得到分区版面所有页数的网页从上面的分区版面的某一页的网页中得到该页所有文章的网址,然后抓取这些文章,保存为本地txt 上面

2014-12-29 23:19:14 9398 1

原创 基于python的PC文件自动同步系统

一直有这个需求,想要将电脑上常用的一些文件自动上传到网盘,奈何一些客户端太脑残,只好抽空自己写一个了。 之前听说百度网盘提供api,不过目前好像收费了,看来要基于快盘api同步了,不清楚能不能成功,先写篇日志,记录整个过程。 一、获得快盘api权限 1. 注册快盘

2014-11-30 00:07:27 2873

原创 基于python的豆瓣“我看过的电影”的爬虫

#!/usr/bin/env python # -*- coding: cp936 -*- # Filename: backup_ver1.py import urllib2 import re import sys import xlwt import time wbk=xlwt.Workbook() sheet1=wbk.add_sheet("my_sheet1") sheet1.wri

2014-11-14 00:16:08 1418 1

原创 win7 64位“python 不是内部或外部命令”解决办法

默认python安装在C:\Python26目录下

2014-11-09 17:53:58 5497

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除