Python网络爬虫与数据库

最新推荐文章于 2024-04-22 11:23:15 发布

FSilverBullet

最新推荐文章于 2024-04-22 11:23:15 发布

阅读量734

点赞数

分类专栏： Python学习

本文链接：https://blog.csdn.net/dongba335/article/details/41807629

版权

Python学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

import DataBaseHelper
import ThreadPool
import http.cookiejar
import urllib

#cookie 登录
cj = http.cookiejar.LWPCookieJar()
cookie_support = urllib.request.HTTPCookieProcessor(cj)
opener = urllib.request.build_opener(cookie_support, urllib.request.HTTPHandler)

db=DataBaseHelper.DbHelper(1,50000)
pool=ThreadPool.ThreadPool(20,500)

def crab(i):
url1="http://fangjia.fang.com/pghouse-c0suzhou/10-kw%cb%d5%d6%dd/"
try:

temp=opener.open(url1, timeout=30)
data=temp.read()
print(data)
db.add("insert into craw(information) values(%s)", [data.decode("GBK")])
finally:
temp.close()
opener.close()

try:
for i in range(0,1):
pool.add(crab, [i])
finally:
print("runOutAndJoin")
pool.runOutAndJoin()
print("pool quit")
pool.syncQuit()

db.quit()

#! /usr/bin/env python
#coding=utf-8
import DataBaseHelper
import re

#get data from DataBase
data = DataBaseHelper.fetchAll("select information from craw")
#convert into string
data = str(data)
#print(data)

#match
pattern1 = r'<span class="housetitle"><a target="_blank" href=".*?">\\r\\n\s*(.*?)\s*</a></span>'
pattern2 = r'<span class="pl5" title=".*?">(.*?)</span>'

match1 = re.findall(pattern1,data)
match2 = re.findall(pattern2,data)

#print(match1)
#print(match2)

try:
#connect DataBase
db = DataBaseHelper.DbHelper(1,10000)
#write into the Database
for i in range(0,len(match1)):
db.add("insert into Data(Name) values(%s)", [match1[i]])
db.add("insert into Data(Address) values(%s)",[match2[i]])
finally:
#close the DataBase
db.quit()

FSilverBullet

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python网络爬虫与数据库

import DataBaseHelperimport ThreadPoolimport http.cookiejarimport urllib#cookie 登录cj = http.cookiejar.LWPCookieJar()cookie_support = urllib.request.HTTPCookieProcessor(cj)opener = ur
复制链接

扫一扫