爬虫-页面解析
临安初雨一夜落红
临安初雨,一夜落红;今晚加班,到天明...
展开
-
使用xpath 定位 p标签,定位到了,但取不到内容。。。,爬虫:番组计划
这是我爬取的目标网站start_url: http://bangumi.tv/person/1/works/voice在抓取角色页的日文名字和名字的href属性时,都成功了,详细的日文名字的定位xpath语法如下:role_item["role_japanese_name"] = role.xpath('./div[@class="ll innerLeftItem"]//h3/a/text()...原创 2018-07-05 19:21:14 · 11235 阅读 · 1 评论 -
python 的list 差集 并集
两个列表a =[1,2,3]b = [2,3,4]1、a 和 b 取差集: 有两种实现方式: 1、常用,效率低的办法 ...原创 2019-06-26 15:38:00 · 149 阅读 · 0 评论 -
BeautifulSoup报错input conversion failed due to input error
简单又暴力的方法,自己可以试试:直接看代码:from bs4 import BeautifulSoup, Commentimport requestsfrom retrying import retry@retry(stop_max_attempt_number=5)def _get_url_three_content(requests_url): proxies =...原创 2019-06-21 09:40:42 · 859 阅读 · 0 评论 -
爬虫,清洗,自己常使用的清洗办法。。。。
1、deling_surplus_special_characters_to_json方法,用于删除每个字段的的特殊字符2、过滤文章表情,主要用于爬取马蜂窝游记的时候使用的# coding=utf-8# author: bogger# create: 2018-11-5# version: 1.0# 功能说明:# 删除特殊字符#########...原创 2019-06-20 14:40:40 · 1356 阅读 · 0 评论 -
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd5 in position 30073: invalid continuation byt
出错代码: @retry(stop_max_attempt_number=10) def _get_url_content(self, start_url): proxies = get_proxies_requests(start_url) random_header = get_header() add_header = {...原创 2019-05-22 17:57:31 · 2086 阅读 · 0 评论 -
处理文章内的表情-emoji-马蜂窝、微信
直接上代码................ def filter_emoji(filter_data_str, replace_content=''): ''' 过滤表情 :param desstr: :param restr: :return: ''' tr...原创 2019-04-05 14:30:39 · 361 阅读 · 0 评论 -
Python-马蜂窝全站抓取。。。今天先写抓取国家和城市,下次有时间在写景点、自由行攻略和游记。。。
1、抓取全部国家1)开始的urlstart_url = 'http://www.mafengwo.cn/mdd/'2)请求部分代码 proxies = get_proxies_requests() random_header = get_header() add_header = { 'Accept': 't...原创 2018-11-23 19:43:43 · 1363 阅读 · 0 评论 -
Http error code 总结
HTTP 1xx-信息提示 这些状态代码表示临时的响应。客户端在收到常规响应之前,应准备接收一个或多个1xx响应。 100-继续。 101-切换协议。 2xx-成功 这类状态代码表明服务器成功地接受了客户端请求。 200-确定。客户端请求已成功。 201-已创建。 202-已接受。 203-非权威性信息。 204-无内容。 205-重置内容。 206-部分内容。 3x...原创 2018-09-05 19:20:55 · 9767 阅读 · 0 评论 -
MySQL TEXT数据类型的最大长度
MySQL TEXT数据类型的最大长度TINYTEXT 256 bytes TEXT 65,535 bytes ~64kb MEDIUMTEXT 16,777,215 bytes ~16MB LONGTEXT 4,294,967,295 bytes ~4GB 假如还是超字段长度,需要改mysql默认字段配置长度,需改my...原创 2018-09-11 16:34:40 · 875 阅读 · 0 评论 -
mysql磁盘空间总结
在跑爬虫的时候,遇到一个sql错误(1159),查了一下资料,解决了,重新启动爬虫,发现跑了5000数据,爬虫又报错了,在debug模式下,发现执行sql插入语句不动了,查阅资料,百般测试,发现mysql数据库的磁盘空间占满了。下面是这次错误的总结。1、drop table table_name 立刻释放磁盘空间 ,不管是 Innodb和MyISAM 。2、truncate...原创 2018-09-04 10:51:37 · 941 阅读 · 0 评论 -
linux 安装 nodejs
下载安装包,所有指令在root下运行wget http://cdn.npm.taobao.org/dist/node/v10.16.0/node-v10.16.0-linux-x64.tar.xz解压tar -xvf node-v10.16.0-linux-x64.tar.xz建立路径 /anzhuang/software/复制node-v10.16.0-linux-...原创 2019-07-31 11:37:44 · 414 阅读 · 0 评论