![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
Python图像识别
这个作者很懒,什么都没留下…
展开
-
爬取q房网房源信息
爬取房源信息,保存到CSV文件,比较简单,没有什么反爬虫。# -*- encoding: utf-8 -*-"""@File : qfang.py@Time : 2020/6/11 14:44@Author : ligang@WeChat : 18233275213@Software: PyCharm"""import requestsimport timefrom lxml import etreeimport csvdef spider_page(url原创 2020-06-11 15:38:23 · 1923 阅读 · 3 评论 -
爬取豆瓣某本书的评论,并保存到mysql数据库
爬取豆瓣某本书的评论,并保存到数据库。可以结合前面发表的文章一起使用。组成某本书的详细信息。from requests_html import HTMLSessionimport reimport timefrom bs4 import BeautifulSoupimport pymysqldef get_txt(num_ye, num_book): """ 爬取...原创 2020-04-10 10:25:30 · 800 阅读 · 0 评论 -
beautifulsoup 缺少 lxml库 不报错
beautifulsoup 解析得配合lxml 一起使用,得安装 bs4 和 lxml 两个库。神坑:没有安装 lxml 竟然不报错,只是返回一个空的列表。原创 2020-04-03 14:35:50 · 318 阅读 · 0 评论 -
豆瓣书籍数据爬取
爬取书名、评分、评论人数、作者/译者、出版社、出版日期、售价,并保存到Excel和mysql数据库。# 加v交流:15188607997import timeimport urllib.requestfrom concurrent.futures import ThreadPoolExecutorimport numpyimport numpy as npimport reque...原创 2020-04-02 17:16:47 · 2775 阅读 · 6 评论 -
集思录可转债爬取
本代码是爬取集思录可转债信息,(除去了发布赎回的,根据安道全老师的三条安全线投资法添加了建仓线、加仓线、重仓线),价格达到三条线的,给与操作提示。# V交流:15188607997# -*- coding:utf-8 -*-import jsonimport requestsimport csvimport refrom lxml import etreedef get_dat(...原创 2020-03-26 16:14:24 · 10646 阅读 · 33 评论 -
Boss直聘招聘信息爬取
利用selenium进行爬取,数据为CSV文件编写时间:2020年03月16日(若爬取失败,应该是网站更新造成的。)from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsimport timefrom selenium.webdriver.common.by import...原创 2020-03-24 17:32:16 · 2395 阅读 · 0 评论