import urllib
import urllib2
import HTMLParser
from bs4 import BeautifulSoup
import re
import MySQLdb as mdb
import json
i=1 #number order of companys
def GetOnePageUrl(url):
global i
flag = 0
request = urllib2.Request(url)
html = urllib2.urlopen(request)
soup = BeautifulSoup(html, "lxml")
for link in soup.find_all(name='a', attrs={"href": re.compile(r'^http://qy.58.com/mq/[0-9]*/$')}):
#print link.get('href')
if flag%2 == 0:
GetOneUrlInfo(link.get('href'))
print i
i += 1
flag += 1
def GetOneUrlInfo(url):
global i
request = urllib2.Request(url)
html = urllib2.urlopen(request)
soup = BeautifulSoup(html,"lxml")
#for addr in soup.find_all(name='td',limit=5):
# print addr.string
fiveinfo = soup.find_all(name='td',limit=5)
if len(fiveinfo) == 0: #the company'
【第一个爬虫】python爬取58同城企业信息并插入数据库
最新推荐文章于 2024-07-06 00:27:05 发布
本文介绍了在Ubuntu 16.04环境下,使用Python2.7和BeautifulSoup爬取58同城企业信息,包括遇到的MySQL安装问题、数据导出到Excel的挑战,以及解决图片中的电话和邮箱识别问题。文章还分享了将数据存储到MySQL数据库的方法,以及使用LibreOffice Calc将MySQL表格导出为Excel的步骤,包括解决权限问题。
摘要由CSDN通过智能技术生成