今天CX姐要求我从China Webmaster上收集排名前200名的房地产网站的排名、网址和简介以及评分信息。在完成任务之后我把程序重新优化了一下,写成了一个类,方便下次重复使用。最终的返回结果是一个pandas中的dataframe,可以写成excel。
class Rank:
def __init__(self,start,end):
from bs4 import BeautifulSoup
from urllib import request
import re
import pandas as pd
import numpy as np
import urllib.parse as urp
import time
import urllib.request as urr
self.limit = end
self.begin = start
def __upbond__(self):
if self.limit - (self.limit // 30)*30 >= 0:
return (self.limit // 30)+1
def __func1__(self,r1):
return r1.find('a').get_text()
def __func2__(self,r1):
return r1.find('span').get_text()
def __func3__(self,r2):
return r2.find('strong').get_text()
def __func4__(self,r2):
return re.findall(r'\d?\d?\d?\d?',r2.find('spa