python3 爬取百合网的女人们和男人们

最新推荐文章于 2021-05-15 18:18:44 发布

weixin_33752045

最新推荐文章于 2021-05-15 18:18:44 发布

阅读量5.5k

点赞数

文章标签： json python 操作系统

原文链接：http://www.cnblogs.com/YuWeiXiF/p/8439552.html

版权

学Python也有段时间了，目前学到了Python的类。个人感觉Python的类不应称之为类，而应称之为数据类型，只是数据类型而已！只是数据类型而已！只是数据类型而已！重要的事情说三篇。

据书上说一个.py（常量、全局变量、函数、数据类型）文件为一个模块，那么就有了一种感觉：常量、全局变量、函数、数据类型是同一“级别的”。在此不多说了，收回自己的心思来看爬虫吧！

1、进百合网官网，单击“搜索”、单击“基本搜索”，这时会跳向另一个页面，该页面为登录页面（如图）：

2、找到login.js，具体步骤：F12、F5、network、js（如图）：

3、找登录时的异步请求，该请求在login.js中（如图）：

4、单击“基本搜索”，会得到两个异步请求

1：获取160个id (如图)：

2：根据id得到用户详细信息，为json数据（如图）：

说了这么多，该上代码了（总共261行）：

baihe.py:

  1 #__author: "YuWei"
  2 #__date: 2018/2/4
  3 import requests
  4 import time
  5 import pymssql
  6 import os
  7 
  8 # 8个人为一组，该常量用于判断列表的长度是否与网站一致
  9 FING_INDEX = 8
 10 # 请求头，伪装成浏览器
 11 HEADERS = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:58.0) Gecko/20100101 Firefox/58.0'}
 12 # 代理ip，防止被百合网封ip
 13 HTTP_IP_PROXIES_1 = 'http://211.151.58.5:80'
 14 HTTP_IP_PROXIES_2 = 'http://192.168.200.1:8081'
 15 
 16 def baihe_db(personal):
 17     """
 18     数据库相关的操作
 19 
 20     :param personal: 为字典类型，封装着个人具体信息
 21     :return: 无
 22     """
 23     # 数据连接
 24     conn = pymssql.connect(host='localhost', user='YUANWEI', password='123456c', database='Baihe',charset='utf8')
 25     cur = conn.cursor() # 游标
 26     sql = """insert into users values({},'{}',{},'{}','{}','{}',{},'{}','{}','{}','{}');""" \
 27         .format(personal['userID'], personal['nickname'], personal['age'], '男' if personal['gender'] == "1" else '女',
 28                 personal['cityChn'], personal['educationChn'], personal['height'],
 29                 '没房' if personal['housing'] == 0 else '有房', '没车' if personal['car'] == 0 else '有车',
 30                 personal['incomeChn'],personal['marriageChn'])
 31     print('sql: ', sql)
 32     try:
 33         cur.execute(sql) # 执行sql语句
 34         save_photo(personal, get_miss_photo_binary(personal['headPhotoUrl'])) # 保存头像
 35         print('成功获取该用户',personal['userID'])
 36     except pymssql.IntegrityError:
 37         print('该用户已存在 ',personal['userID'])
 38     except SystemError as sy: # 向err.txt导入错误日志
 39         with open('err.txt','a',encoding='utf8') as file:
 40             file.write(personal['nickname'] + ' ' + str(personal['userID']) + ' 错误信息：' + str(sy) + '\n') # 写
 41     except pymssql.ProgrammingError as pp:
 42         with open('err.txt','a',encoding='utf8') as file:
 43             file.write(personal['nickname'] + ' ' + str(personal['userID']) + ' 错误信息：' + str(pp) + '\n')
 44     conn.commit() # 提交
 45     time.sleep(1)
 46     cur.close()
 47     conn.close()
 48 
 49 def personal_data(lists):
 50     """
 51     获取一组的详细信息，最多为8个
 52 
 53     :param lists: 列表类型，封装着一组信息
 54     :return: 无
 55     """
 56     for personal_data_dict in lists: # 遍历一组信息
 57         baihe_db(personal_data_dict)
 58 
 59 def get_miss_photo_binary(photo_url):
 60     """
 61     获取照片的二进制数据
 62 
 63     :param photo_url: 个人头像的url
 64     :return: 二进制数据
 65     """
 66     binary = ''
 67     try:
 68         # 向服务器发送get请求,下载图片的二进制数据
 69         binary = requests.get(photo_url, headers=HEADERS,proxies={"http": HTTP_IP_PROXIES_2}).content
 70     except requests.exceptions.MissingSchema as rem:
 71         print(rem)
 72     except requests.exceptions.ProxyError: # 代理网络连接慢或无网络
 73         time.sleep(5)
 74         # 递归调用get_miss_photo_binary()
 75         get_miss_photo_binary(photo_url)
 76     return binary
 77 
 78 def save_photo(personal,binary):
 79     """
 80     以'E:/Baihe/1/'为文件目录路径 或 以'E:/Baihe/0/'为文件目录路径
 81     以 name + id + .jpg 或 以 id + .jpg 为文件名
 82     有可能无相片
 83 
 84     :param personal: 字典类型，封装着个人具体信息
 85     :param binary: 二进制数据
 86     :return: 无
 87     """
 88     if binary != '':
 89         file_path = 'E:/Baihe/1/' if personal['gender'] == "1" else 'E:/Baihe/0/' #
 90         if not os.path.exists(file_path): # 如果该路径不存在
 91             os.makedirs(file_path) # 创建该路径
 92         try:
 93             # 向file_path路径保存图片
 94             with open(file_path + personal['nickname'] + str(personal['userID']) + '.jpg','wb') as file:
 95                 file.write(binary)
 96         except OSError:
 97             with open(file_path + str(personal['userID']) + '.jpg','wb') as file:
 98                 file.write(binary)
 99 
100 
101 def no_exact_division(miss_id_list):
102     """
103    当包含用户id的列表长度不能被8整除且列表长度小于8时调用该方法
104 
105     :param miss_id_list: 为列表类型，封装着用户id
106     :return: 无
107     """
108     miss_info_lists = ba.get_miss_info(miss_id_list)  # 获取列表的个人信息
109     personal_data(miss_info_lists) # 遍历一组的信息
110 
111 
112 class Baihe(object):
113 
114     def __init__(self,account,password):
115         """
116         初始化
117         :param account: 账号
118         :param password: 密码
119         """
120         self.is_begin = True # 开始爬取数据
121         self.index = 0 # 控制self.info长度为8个
122         self.info = [] # 临时保存用户id
123         self.page = 61 # 页码
124         self.account = account # 账号
125         self.password = password # 密码
126         self.req = requests.session() # 会话，保证Cookie一致
127 
128     def login(self):
129        """
130        登录
131 
132        :return: 无
133        """
134        # 登录的url
135        url_login = 'http://my.baihe.com/Getinterlogin/gotoLogin?event=3&spmp=4.20.87.225.1049&' \
136                    'txtLoginEMail={}&txtLoginPwd={}'.format(self.account,self.password)
137        login_dict = {}
138        try:
139            # 向服务器发送get请求
140            login_dict = self.req.get(url_login,headers=HEADERS,proxies={"http": HTTP_IP_PROXIES_1},timeout=500).json()
141        except requests.exceptions.ProxyError:  # 代理网络连接慢或无网络
142             time.sleep(5)
143             # 递归调用self.login()
144             self.login()
145        time.sleep(3)
146        print('login: ',login_dict)
147        self.req.keep_alive = False # 关闭会话多余的连接
148        if login_dict['data'] == 1:
149            print('登录成功')
150        else:
151            print('登录失败, 30分钟以后自动登录。。。。。。。。')
152            time.sleep(1800)
153            # 递归调用self.login()
154            self.login()
155        print('login is cookie ', requests.utils.dict_from_cookiejar(self.req.cookies)) # 查看登录后的会话cookie
156 
157     def filtrate_miss(self,pages):
158         """
159         根据条件筛选数据，不提供条件参数
160 
161         :param pages: 页码。该网站只提供62页的数据
162         :return: 包含160个用户的id的列表
163         """
164         time.sleep(2)
165         # 获取用户id的url
166         url_miss = 'http://search.baihe.com/Search/getUserID'
167         # from表单数据
168         params_miss = {"minAge": 18, "maxAge": 85, "minHeight": 144, "maxHeight": 210, "education": '1-8',
169                        "income": '1-12', "city": -1, "hasPhoto": 1, "page": pages, "sorterField": 1}
170         miss_dict = {}
171         try:
172             # 发送post请求
173             miss_dict = self.req.post(url_miss,data=params_miss,headers=HEADERS,proxies={'http':HTTP_IP_PROXIES_2}).json()
174         except requests.exceptions.ProxyError:  # 代理网络连接慢或无网络
175             time.sleep(5)
176             # 递归调用self.filtrate_miss()
177             self.filtrate_miss(pages)
178         time.sleep(2)
179         print('miss is cookies ', requests.utils.dict_from_cookiejar(self.req.cookies)) # 查看筛选后的会话cookie
180         print('miss dict: ',miss_dict)
181         print(len(miss_dict['data']),'个')
182         return miss_dict['data']
183 
184     def get_miss_info(self,infos):
185         """
186         获取用户详细信息
187 
188         :param infos: 列表类型，封装着个人id，可能为一组（8），或小于8个
189         :return: 包含一组的详细信息
190         """
191         if len(infos) == FING_INDEX: # infos列表长度等于8时
192             url_info = 'http://search.baihe.com/search/getUserList?userIDs={},{},{},{},{},{},{},{}'\
193                 .format(infos[0],infos[1],infos[2],infos[3],infos[4],infos[5],infos[6],infos[7])
194         else: # infos列表长度小于8时
195             bracket = '' # 参数userIDs的值
196             for lens in range(len(infos)):
197                 bracket += (str(infos[lens]) + ',') # 构造该表示："{},{},{},{},{},{},{},{},"
198             # 获取用户详细信息的url      bracket[:len(bracket)-1]： 分片，干掉最后一个“,”
199             url_info = 'http://search.baihe.com/search/getUserList?userIDs=' + bracket[:len(bracket)-1]
200         miss_info = {}
201         try:
202             # 发送post请求
203             miss_info = self.req.post(url_info,headers=HEADERS,proxies={'http':HTTP_IP_PROXIES_2}).json()
204         except requests.exceptions.ProxyError:  # 代理网络连接慢或无网络
205             time.sleep(5)
206             # 递归调用self.get_miss_info()
207             self.get_miss_info(infos)
208         time.sleep(2)
209         try:
210             return miss_info['data']
211         except KeyError:
212             time.sleep(2)
213             self.get_miss_info(infos)
214 
215     def exact_division(self,miss_id_list):
216         """
217         当包含用户id的列表长度能被8整除或包含用户id的列表长度不能被8整除且包含用户id的列表长度大于8
218 
219         :param miss_id_list: id信息列表（160）
220         :return: 无
221         """
222         for user_id in miss_id_list:
223             self.index += 1
224             self.info.append(user_id)
225             if ba.index == FING_INDEX:
226                 print('user id: ', self.info)
227                 miss_info_list = ba.get_miss_info(self.info) # 8
228                 if None != miss_info_list:
229                     # 使self.index，self.info为初值，以便8人一组
230                     self.index = 0
231                     self.info = []
232                     print('miss info list: ', miss_info_list)
233                     personal_data(miss_info_list) # 遍历一组（8）的信息
234                 else:
235                     print('miss info list is null')
236                     continue
237 
238     def main(self):
239         """
240         具体实施
241 
242         :return: 无
243         """
244         self.login() # 登录
245         while self.is_begin: # 开始
246             print('正在获取',self.page,'页.......')
247             miss_id_list = self.filtrate_miss(self.page) # 获取用户id列表
248             if len(miss_id_list) != 0: # 列表有id
249                 num = len(miss_id_list) % FING_INDEX # 模运算
250                 if num == 0: # 被8整除
251                     self.exact_division(miss_id_list)
252                 else: # 没有被8整除 , 虽然该分支没有执行，但还是要加上。因为该网站总是提供160个id
253                     print('余数: ',num)
254                     if len(miss_id_list) > FING_INDEX: # id列表的长度大于8
255                         copy_miss_id_list = miss_id_list[:len(miss_id_list) - num] # 分片 取8个一组
256                         self.exact_division(copy_miss_id_list)
257                         no_exact_division(miss_id_list[len(miss_id_list) - num:]) # 余下的个人信息
258                     else:
259                         no_exact_division(miss_id_list) # 小于8个人的个人的信息
260             else:
261                 print('数据已爬完。。。。。')
262                 self.is_begin = False
263             self.page += 1
264             time.sleep(10)
265 # 运行
266 if __name__ == '__main__':
267     ba = Baihe('xxxxxxx', 'xxxxxxxxxx')
268     ba.main()

温馨提示：想爬女的，就找个性别为男的账号。想爬男的，就找个性别为女的账号。

如果要简单的分析一下所爬的数据，建议用男的账号，女的账号反复爬那么3-5次，这样数据才有有效性。

转载于:https://www.cnblogs.com/YuWeiXiF/p/8439552.html

weixin_33752045

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python3 爬取百合网的女人们和男人们

学Python也有段时间了，目前学到了Python的类。个人感觉Python的类不应称之为类，而应称之为数据类型，只是数据类型而已！只是数据类型而已！只是数据类型而已！重要的事情说三篇。据书上说一个.py（常量、全局变量、函数、数据类型）文件为一个模块，那么就有了一种感觉：常量、全局变量、函数、数据类型是同一“级别的”。在此不多说了，收回自己的心思来看爬虫吧！1、进百合网官网，单击“搜索”...
复制链接

扫一扫