python爬虫+数据分析/处理
Coding With you.....
J2EE,python,数据分析,自然语言处理,人工智能
展开
-
pip安装xxx模块报错 Could not find a version that satisfies the requirement exceptions的解决办法
1.安装doxc模块后,报错Could not find a version that satisfies the requirement exceptions,ERROR: No matching distribution found for exceptions如图:解决方法:删除安装的doxc模块:pip unstall doxc;打开网址https://www.lfd.uci.edu/~gohlke/pythonlibs/找到python_docx-0.8.10-py2.py3-..原创 2021-03-27 11:54:41 · 3354 阅读 · 2 评论 -
查看自己的tensorflow版本--超方便的方法
import tensorflow as tfprint(tf.__version__)原创 2020-10-30 18:02:45 · 7436 阅读 · 0 评论 -
python爬取论文信息保存到MYSQL数据库中
1.设计要爬取的字段,设计数据库表2.进行爬取,在控制台可以看到爬取的结果3.将爬取的结果保存到数据库中4.查看数据库这里只爬取NIPS上论文的题目、作者、摘要做测试,后续将涉及所有字段的爬取。代码craw_db.py:import pymysql import requestsfrom bs4 import BeautifulSoup def parse_html(url): #使用beautifulSoup进行解析 respon.原创 2020-10-26 17:40:27 · 893 阅读 · 2 评论 -
深度学习入门demo:样本数据为y=0.7x+3.1函数的模型训练过程
案例简介:样本数据为y=0.7x+3.1函数的样本随机点;通过建立模型、训练优化最后预测出这些样本可以用哪个模型来保存,为之后的样本扩大提供了基础。具体代码如下:# -*- coding: utf-8 -*-"""Created on Thu Jun 4 17:58:43 2020@author: Dell"""#深度学习:根据样本数据,构建一个足够准确的模型import tensorflow as tfimport numpy as npx1=np.random.rand(3原创 2020-06-04 18:43:07 · 333 阅读 · 0 评论 -
windows下的安装Tensorflow报错Tanaconda3/envs/tensorflow/tensorflow\Lib\site-packages\tensorflow\python\fra
Tanaconda3/envs/tensorflow/lib/python3.5/site-packages/tensorflow\Lib\site-packages\tensorflow\python\framework错误分析:python版本3.6,numpy是最新的1.8---------原因是numpy版本问题,给将一个版本:pip install numpy==1.16.4;安装成...原创 2020-04-30 19:34:24 · 11710 阅读 · 0 评论 -
python爬取NIPS论文信息,以及遇到的疑难总结
1主页2.代码import reimport timefrom bs4 import BeautifulSoupimport requestsfrom requests import RequestExceptionimport conference_wffrom lxml import etreedef get_page(url): try: ...原创 2020-02-17 13:39:17 · 657 阅读 · 0 评论 -
慕课心得---python网络爬虫及技术
1.环境搭建:pycharm也安装了anocode便于后期数据分析2.搭建web网站;自己编的客户端来访问。 Flask安装-----自己写一个页面 通过urllib requests来访问该页面----之后可以看到爬取的内容3.web网站的get方法:客户端发送------>服务器获取 客户端:编码---发送 urllib.reque...原创 2020-02-13 21:08:24 · 378 阅读 · 0 评论 -
python根据关键词爬取万方论文的题目、作者、作者单位、会议以及发布时间等信息保存为表格及总结
1.表格如果已经存在,就在原先的基础上继续添加新的,保持元数据的存在2.如果表格不存在,就创建再添加元素目录结构: 代码:0211_wanfang.pyimport reimport timefrom bs4 import BeautifulSoupimport requestsfrom requests im...原创 2020-02-11 23:03:42 · 2619 阅读 · 3 评论 -
python爬取京东页面
url = "https://item.jd.com/2967929.html"try: r = requests.get(url)就理解成get方法获取地址吧,里面呢的参数就是路径 Requests 会自动解码来自服务器的内容。大多数 unicode 字符集都能被无缝地解码 r.raise_for_status()使用r.encoding 属性来改变Requests的...原创 2020-02-11 17:14:52 · 638 阅读 · 0 评论 -
根据关键字爬取百度内容
keyword = "山西农业大学"try: kw = {'wd':keyword}#相当于查找有这个关键字的 r = requests.get("http://www.baidu.com/s",params=kw) print(r.request.url) r.raise_for_status() print(len(r.text))except:...原创 2020-02-11 17:12:41 · 1958 阅读 · 0 评论 -
python编码,根据图片的网址将图片保存到指定位置
这里先测试了爬取一个图片,这适合爬取大量图片,效率高代码url="http://image..."#图片的地址root="D://"#保存的地址path=root+url.split('/')[-1]try: if not os.path.exists(root): os.mkdir(root) if not os.path.exists(path...原创 2020-02-11 17:07:10 · 919 阅读 · 0 评论 -
pycharm中python爬取知网论文信息并保存在Excel中(1)
#C:\Users\Dell\PycharmProjects\scratch_one\20200208_paper.xlsx最终输出文件的地址import requestsfrom bs4 import BeautifulSoupfrom openpyxl import workbook # 写入Excel表所用#from openpyxl import load_workbook ...原创 2020-02-11 16:58:12 · 3666 阅读 · 11 评论 -
爬虫入门(二)爬取内容遇到的问题以及合法性分析
1.爬虫合法性:几乎每一个网站都有一个名为 robots.txt 的文档,当然也有部分网站没有设定 robots.txt。对于没有设定 robots.txt 的网站可以通过网络爬虫获取没有口令加密的数据,也就是该网站所有页面数据都可以爬取。如果网站有 robots.txt 文档,就要判断是否有禁止访客获取的数据。2.从网页上爬取内容显示乱码,可以进行编码解码的方式解决:thing1.te...原创 2019-11-15 19:19:15 · 711 阅读 · 0 评论 -
python爬虫入门(一)-----环境配置——第一次爬数据
1.确保环境:有python环境,还有Anaconda,有编写根据pycharm2.打开pycharm新建project、新建python文件,import requests报错如下解决:打开python的pip位置,复制路径打开cmd,cd进入该路径,输入pip install requests直至安装完成:此时发现还在报错,原因是在python安装目录中下载了,但在...原创 2019-11-15 15:40:43 · 397 阅读 · 0 评论