python中soup_python – 使用带有UTF-8的soup.get_text()

我需要使用BeautifulSoup从页面获取所有文本.在BeautifulSoup的文档中,它显示你可以做soup.get_text()来做到这一点.当我在reddit.com上尝试这样做时,我收到了这个错误:

UnicodeEncodeError in soup.py:16

'cp932' codec can't encode character u'\xa0' in position 2262: illegal multibyte sequence

我在我检查的大多数网站上都遇到了类似的错误.

当我做了soup.prettify()时,我也遇到了类似的错误,但我通过将其更改为soup.prettify(‘UTF-8’)来修复它.有没有什么办法解决这一问题?提前致谢!

6月24日更新

我发现了一些似乎适用于其他人的代码,但我仍然需要使用UTF-8而不是默认代码.码:

texts = soup.findAll(text=True)

def visible(element):

if element.parent.name in ['style', 'script', '[document]', 'head', 'title']:

return False

elif re.match('', str(element)): return False

elif re.match('\n', str(element)): return False

return True

visible_texts = filter(visible, texts)

print visible_texts

但错误是不同的.进展?

UnicodeEncodeError in soup.py:29

'ascii' codec can't encode character u'\xbb' in position 1: ordinal not in range

(128)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,这里提供一个简单的爬取猎聘大数据岗位相关信息的Python代码,具体步骤如下: 1. 导入所需库:requests、bs4、pandas 2. 定义一个函数,用于爬取指定页面的数据,并将数据转换为DataFrame格式 3. 定义一个循环语句,用于爬取多个页面的数据 4. 将所有爬取到的数据合并为一个DataFrame,并保存为Excel文件 代码如下: ```python import requests from bs4 import BeautifulSoup import pandas as pd # 定义一个函数,用于爬取指定页面的数据,并将数据转换为DataFrame格式 def get_data(url): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} response = requests.get(url, headers=headers) soup = BeautifulSoup(response.content, 'lxml') job_list = soup.find_all('div', class_='job-info') data = [] for job in job_list: job_title = job.find('h3').text.strip() company = job.find('p', class_='company-name').text.strip() salary = job.find('span', class_='text-warning').text.strip() location = job.find('p', class_='area').text.strip() experience = job.find('p', class_='experience').text.strip() education = job.find('p', class_='education').text.strip() job_desc = job.find('p', class_='temptation').text.strip() data.append([job_title, company, salary, location, experience, education, job_desc]) df = pd.DataFrame(data, columns=['职位名称', '公司名称', '薪资', '工作地点', '工作经验', '教育程度', '职位描述']) return df # 定义一个循环语句,用于爬取多个页面的数据 result = pd.DataFrame() for i in range(1, 11): url = 'https://www.liepin.com/zhaopin/?key=大数据&d_sfrom=search_fp&headckid=8cfa3a6d7e4f2f4d&flushckid=1&d_pageSize=40&d_curPage={}'.format(i) df = get_data(url) result = pd.concat([result, df], ignore_index=True) # 将所有爬取到的数据合并为一个DataFrame,并保存为Excel文件 result.to_excel('大数据岗位.xlsx', index=False) print('数据已保存!') ``` 其,for循环语句的range(1, 11)表示爬取10页数据,可以根据需要进行修改。另外,最后一行代码将所有爬取到的数据保存为Excel文件,文件名为“大数据岗位.xlsx”,可以根据需要进行修改。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值