import json //引入json模块
import MySQLdb as mdb //引入数据模块
import sys //引入sys模块
import urllib2 如果要发送请求可以引入这个模块如果要写爬虫这个必不可少
response = urllib2.urlopen('http://www.baidu.com')
如果要从输入中传参数 , 可以用 input_dir = sys.argv[1]
如果要显示一个文件下的文件
dirs = os.listdir(input_dir)
连接数据库可以用
con = mdb.connect(host = '192.168.5.280', user = 'root', passwd = 'xueqy', db = 'installdb')
cur = con.cursor()
sql = "select media_url, id from mot_media where media_pages = 1"
cursor.execute(sql)
rows = cursor.fetchall()
counter = 0
for url in rows : //取出查询结果
如果要是执行sql更新
cur.execute(sql_guid_update, (file_id, one_dir))//如果传入多个参数可以用
con.commit()
文件的读写:
fo = open("noLoadmedia.txt", "wb")
fo.write('\n %s : url %s'%(url[1],url[0])) //文件的写入
文件读:
with open("Documents/log_all_project/baidu.com/access.log","r") as file:
while True:
line = file.readline()
if line:
pass
line=line.strip()
# os.popen("wget %s"%line)
p = line.rfind(':')
filename = line[1:p]
if (line.find('Googlebot')) >=0 or (line.find('bingbot')) >=0 :
# js_line=json.loads(line)
split_line = line.split(' - - ') [0]
# fo.write('\n %s'%js_line["remote_addr"])
fo.write('\n %s'%split_line)
#print "create %s"%line
else : break
file.close
python 的try catch是这样写的
try:
response = urllib2.urlopen('http://www.baidu.com/html/%s/%s-1.page'%(name,name))
except urllib2.URLError as e:
if hasattr(e, 'code'):
#html = response.read()
fo.write('\n %s : url %s'%(url[1],url[0]))
print 'Error media_id : ', url[1]
print 'Code:',e.code
#return
elif hasattr(e, 'reason'):
print 'Reason:',e.reason
finally :
刚学python 这两个东西还要导入的
1.这个程序指定什么程序来执行
#!/usr/bin/env python
执行的脚本的编码是什么
# encoding: utf-8